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自豪 地 采用 谷歌 翻译 


本 书 背 后 的 哲学 


数据 结构 和 算法 是 过 去 50 年 来 最 重要 的 发 明之 一 ， 它 们 是 软件 工程 师 需要 了 解 的 基础 工具 。 
但 是 在 我 看 来 ， 这 些 话 题 的 大 部 分 书籍 都 过 于 理论 ， 过 于 庞大 ， 也 是 “ 自 底 向 上 "的 : 


过 于 理论 
Oe OD SO at ns en 
这 个 话题 的 最 实际 的 子 集 ， 并 省 略 或 不 强 


了 简化 ， 并 专注 于 数学 。 在 这 本 书 中 ， 我 介绍 了 
调 关 全 的 座次 o 


过 于 庞大 
这 些 话 题 的 大 多 数 书籍 至 少 有 500 页 ， 有 些 超过 1000 页 。 通 过 关注 我 认为 对 软件 工程 师 最 
有 用 的 话题 ， 我 把 这 本 书 限制 在 200 页 以 下 。 
过 于 " 自 底 向 上 "” 

它们 (接口 ) 。 在 这 本 


许多 数据 结构 的 书籍 着 重 于 数据 结构 如 何 工 作 (实现 ) ， 而 不 是 使 用 它们 (接口 ) 
书 中 ， 我 从 接口 开始 ，" 自 顶 向 下 "。 读 者 在 学 习 如 何 使 用 Java 集合 框架 中 的 结构 之 后 ， 再 了 


解 它们 的 工作 原理 。 


， 有些 书 将 这 个 材料 展示 在 上 下 文 之 外 ， 缺 少 动机 : 这 只 是 另 一 个 数据 结构 ! 我 试图 使 
党 一 个 应 用 - 网 页 搜索 - 来 组 织 这 些 话 题 ， 它 广泛 使 用 数据 结构 ， 并 且 是 


pn ， 通 过 围 乡 


一 个 有 趣 和 重要 的 话题 。 
性 数据 结构 的 课 中 涵盖 ， 包 括 Redis 的 持久 化 数 


这 个 应 用 激发 了 一 些 话题 ， 通 常 不 会 在 介 


撕 结 构 。 
Se 些 受 协 。 我 包括 了 大 多 数 读 者 永 
远 不 会 使 用 的 一 些 话题 ， 但 是 可 能 在 技术 面试 中 ， 你 需要 知道 这 些 话题。 对 于 这 些 话题 ， 我 


提出 了 传统 的 观点 和 我 怀疑 的 理由 。 


本 书 还 介绍 了 软件 工程 实践 的 基本 方面 ， 包 括 版 本 控制 和 单元 测试 。 大 多 数 齐 节 都 包括 一 个 
练习 ， 人 允许 读者 应 用 他 们 学 到 的 内 容 。 每 个 练习 都 提供 自动 化 测试 ， 来 检查 解决 方案 。 对 于 
大 多 数 练习 ， 我 在 下 一 章 的 开头 展示 我 的 解决 方案 。 


0.1 预备 条 件 


本 书面 向 计算 机 科学 及 相关 领域 的 大 学 生 ， 专 业 软 件 工程 是， 软件 工程 培训 人 员 和 技术 面试 
准备 人 员 。 
在 你 开始 读 这 本 书 之 前 ， 你 应 该 很 熟悉 Java， 尤 其 应 该 知道 如 何 定 义 一 个 扩展 现 有 类 的 新 
类 ， 或 实现 一 个 interface ° 如 果 你 不 熟悉 Java 了 ， 这 里 有 两 本 书 可 以 用 于 起 步 ， 
。 Downey 和 Mayfield，《Think Java》 (O'Reilly Media，2016) ， 它 面向 以 前 从 未 编程 
过 的 人 。 
。 Sierra 和 Bates，《Head First Java》 (O'Reilly Media，2005) ， 它 适用 于 已 经 知道 另 
一 种 编程 语言 的 人 。 


如 果 你 不 熟悉 Java 中 的 接口 ， 你 可 能 需要 在 http://thinkdast.com/interface 上 完成 一 个 名 
为 “什么 是 接口 "的 教程 。 


一 个 词汇 注解 : “接口 "这 个 词 可 能 会 令 人 困惑 。 在 应 用 编程 接口 (API) 的 上 下 文中 ， 它 指 代 
一 组 提供 某 些 功能 的 类 和 方法 。 


在 Java 的 上 下 文中 ， 它 还 指 代 一 个 与 类 相似 的 语言 特性 ， 它 规定 了 一 组 方法 。 为 了 避免 混 
淆 ， 我 将 使 用 正常 字体 中 的 “接口 "来 表示 接口 的 一 般 思想 ， 代 码 字 体 的 interface 用 于 Java 
语言 特性 。 


你 还 应 该 熟悉 类 型 参数 和 泛 型 类 型 。 例 如 ， 你 应 该 知道 如 何 使 用 类 型 参数 创建 对 象 ， 
如 ArrayList<Integer> 。 如 果 不 是 ， 你 可 以 在 http://thinkdast.com/types 上 了 解 类 型 参数 。 


你 应 该 熟悉 Java 集合 框架 (JCF) ， 你 可 以 阅读 http:Wthinkdast.com/collections。 特 别 是 ， 


你 应 该 知道 List interface ， 以 及 ArrayList 和 LinkedList 类 。 


理想 情况 下 ， 你 应 该 熟悉 Apache Ant， 它 是 Java 的 自动 化 构建 工具 。 你 可 以 在 
http://thinkdast.com/anttut 上 阅读 Ant 的 更 多 信息 。 


你 应 该 熟悉 JUnit， 它 是 Java 的 单元 测试 框架 。 你 可 以 在 http://thinkdast.com/junit 上 阅读 更 
多 信息 。 
S24 信 心 : 


处 理 代 码 


本 书 的 代码 位 于 http://thinkdast.com/repo 上 的 Git 仓库 中 。 


Git 是 一 个 “版 本 控制 系统 "”， 允 许 你 跟踪 构成 项 目的 文件 。Git 控制 下 的 文件 集合 称 为 “仓库 ”。 


GitHub 是 一 个 托管 服务 ， 为 Git 仓库 提供 存储 和 方便 的 Web 界面 。 它 提供 了 几 种 使 用 代码 的 
方法 : 


e 你 可 以 通过 按 下 Fork (派生 ) 按钮 ， 在 GitHub 上 创建 仓库 的 副本 。 如 果 你 还 没有 
GitHub 帐户 ， 则 需要 创建 一 个 。 派 生 之 后 ， 你 可 以 在 GitHub 上 拥有 你 自己 的 仓库 ， 你 
可 以 使 用 它们 来 跟踪 你 编写 的 代码 。 然 后 ， 你 可 以 "克隆 "仓库 ， 它 将 文件 的 副本 下 载 到 你 
的 计算 机 。 

e 或 者 ， 你 可 以 克隆 仓库 而 不 进行 派生 。 如 果 你 选择 此 选项 ， 则 不 需要 GitHub 帐户 ， 但 你 
无 法 将 更 改 保存 在 GitHub 上 。 

e 如 果 你 不 想 使 用 Git， 你 可 以 使 用 GitHub 页 面 上 的 Download (下 载 ) 按钮 或 此 链接 
http://thinkdast.com/zip， 以 ZIP 压缩 包 格 式 下 载 代码 。 


克隆 仓库 或 解压 ZIP 文件 后 ， 你 应 该 有 一 个 名 为 ThinkDatastructures 的 目录 ， 其 中 有 一 个 名 
为 code 的 子 目录 。 


本 书 中 的 示例 是 使 用 Java SE 7 开发 和 测试 的 。 如 果 你 使 用 的 是 较 昌 的 版 本 ， 一 些 示例 将 无 
法 正常 工作 。 如 果 你 使 用 的 是 更 新 版 本 ， 那 么 它们 都 应 该 能 用 。 


这 本 书 是 我 为 纽约 市 Flatiron School 号 的 课程 的 一 个 改编 版 ， 它 提供 了 编程 和 网 页 开发 相关 
的 各 种 在 线 课 程 。 他 们 提供 基于 这 个 材料 的 课程 ， 提 供 在 线 开 发 环境 ， 来 自 教 师 和 其 他 学 生 
的 帮助 ， 以 及 结业 证 书 。 你 可 以 在 http://flatironschool.com 上 找到 更 多 信息 。 


。 在 Flatiron School，Joe Burgess ，Ann John 和 Charles Pletcher 通过 实现 和 测试 ， 提 
供 了 来 自 初 始 规范 的 指导 ， 建 议和 更 正 。 谢 谢 你 们 ! 

。 我 非常 感谢 我 的 技术 审 校 员 Barry Whitman, Patrick White 和 Chris Mayfield， 他 提出 了 
许多 有 用 的 建议 ， 并 捕获 了 许多 错误 。 当 然 ， 任 何 剩余 的 错误 都 是 我 的 错 ， 而 不 是 他 们 
的 错 ! 

。 感谢 Olin College 的 数据 结构 和 算法 课程 中 的 教师 和 学 生 ， 他 们 读 了 这 本 书 并 提供 了 有 
用 的 反馈 。 


如 果 你 对 文本 有 任何 意见 或 建议 ， 请 发 送 至 : feedback@greenteapress.com。 


第 一 草 接口 


原文 : Chapter 1 Interfaces 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 

本 书展 示 了 三 个 话题 : 


。 数据 结构 : 从 Java 集合 框架 (JCF) 中 的 结构 开始 ， 你 将 学 习 如 何 使 用 列表 和 映射 等 数 
据 结构 ， 你 将 看 到 它们 的 工作 原理 。 

。 算法 分 析 : 我 提供 了 技术 ， 来 分 析 代码 以 及 预测 运行 速度 和 需要 多 少 空间 (内 存 ) 。 

。 信息 检索 : 为 了 激发 前 两 个 主题 ， 并 使 练习 更 加 有 趣 ， 我 们 将 使 用 数据 结构 和 算法 构建 
简单 的 Web 搜索 引擎 。 


以 下 是 话题 顺序 的 大 纲 : 


e。 我 们 将 从 List 接口 开始 ， 你 将 编写 实现 这 个 接口 的 两 种 不 同 的 方式 。 然 后 我 们 将 你 的 实 
现 与 Java ArrayList 和 LinkedList 类 进行 比较 。 

。 接 下 来 ， 我 将 介绍 树 形 数 据 结 构 ， 你 将 处 理 第 一 个 应 用 程序 : 一 个 程序 ， 从 维基 百科 页 
面 读 取 页 面 ， 解 析 内 容 ， 并 遍历 生成 的 树 来 查找 链接 和 其 他 特性 。 我 们 将 使 用 这 些 工 具 
来 测试 到达 哲学 "的 猜想 (你 可 以 通过 阅读 http://thinkdast.com/getphil 来 了 解 ) 。 

e 我 们 将 了 解 Java 的 Map 接口 和 HashMap 实现 。 然 后 ， 你 将 使 用 哈 希 表 和 二 又 搜索 树 来 
编写 实现 此 接口 的 类 。 

。 最 后 ， 你 将 使 用 这 些 (以 及 其 他 一 些 我 之 前 介绍 的 ) 类 来 实现 一 个 Web 搜索 引擎 ， 其 中 
包括 : 一 个 查找 和 读 取 页 面 的 候 虫 程序 ， 一 个 存储 网 页 内 容 的 索引 器 ， 以 便 有 效 地 搜 
索 ， 以 及 一 个 从 用 户 那里 接受 查询 并 返回 相关 结果 的 检索 器 。 


让 我 们 开始 吧 。 


1.1 为 什么 有 两 种 List ? 


当 人 们 开始 使 用 Java 集合 框架 时 2 有 时 候 会 混淆 ArrayList 和 LinkedList 。 为 什么 Java 提 
供 两 个 List interface 的 实现 呢 ? 你 应 该 如 何 选择 使 用 哪 一 个 ?我 们 将 在 接 下 来 的 几 章 回答 
这 些 问 题 。 


我 将 以 回顾 interface 和 实现 它们 的 类 开始 ， 我 将 介绍 “面向 接口 编程 "的 概念 。 


在 最 初 的 几 个 练习 中 ， 你 将 实现 类 似 于 ArrayList 和 LinkedList 的 类 ， 这 样 你 就 会 知道 他 们 
如 何 工作 ， 我 们 会 看 到 ， 他 们 每 个 类 都 有 优点 和 缺点 。 对 于 ArrayList ， 一 些 操 作 更 快 或 占 

用 更 少 的 空间 ; 但 对 于 LinkedList 其 他 操作 更 快 或 空间 更 少 。 哪 一 个 更 适合 于 特定 的 应 用 程 
序 ， 取 决 于 它 最 常 执行 的 操作 。 


1.2 Java 中 的 接口 


Java interface 规定 了 一 组 方法 ; 任何 实现 这 个 interface 的 类 都 必须 提供 这 些 方法 。 例 
如 ， 这 里 是 comparable 的 源 代 码 ， 它 是 定义 在 java.lang 包 中 的 interface 


public interface Comparable<T> { 
public int compareTo(T 0o); 
} 


这 个 interface 的 定义 使 用 类 型 参数 T ， 这 使 得 Comparable 是 个 泛 型 类 型 。 为 了 实现 这 


个 interface ， 一 个 类 必须 : 


e@ 规定 类 型 T ， 以 及 ， 
e 提供 一 个 名 为 compareTo 的 方法 ， 接 受 一 个 对 象 作为 参数 ， 并 返回 int 。 


例如 ， 以 下 是 java.1lang.Integer 的 源 代码 : 


public final class Integer extends Number implements Comparable<Integer> { 


public int compareTo(Integer anotherInteger) { 
int thisVal = this.value; 
int anotherVal = anotherInteger .Value 
return (thisvVval<anotherVal ? -1 : (thisVal==anotherVal ? 0 : 1)); 


} 


// other methods omitted 


译 者 注 : 根据 Comparable<T> 的 文档 ， 不 必要 这 人 么 复杂 ， 直接 运 


this.value - that.value 就 足够 了 。 
这 个 类 扩展 了 Number ， 所 以 它 继承 了 Number 的 方法 和 实例 变量 ; 它 实 


现 Comparable<Integer> ， 所 以 它 提 供 了 一 个 名 为 CompareTo 的 方法 ， 接 受 Integer 并 返 
人 
1 


Ney 


sinie 
当 一 个 类 声明 它 实现 一 个 interface ， 编 译 器 会 检查 ， 它 提供 了 所 有 interface 定义 的 方法 。 


除 此 之 外 ， 个 compareTo 的 实现 使 用 “三 元 运算 符 "， 有 时 写作 ?: 。 如 果 你 不 熟悉 ， 可 以 阅 
读 he ene 


1.3 List 接口 


Java 集 合 框架 (JCF ) 定义 了 一 个 interface ， 称 为 List ， 并 提供 了 两 个 实现 方 


式 ， ArrayList 和 LinkedList 。 


这 个 interface 定义 了 List 是 什么 意思 ; 实现 它 的 任何 类 interface 必须 提供 一 组 特定 的 方 
法 ， 包 括 add ，get ， remove ， 以 及 其 它 大 约 20 个 。 


ArrayList 并 LinkedList 提供 这 些 方 法 ， 因 此 可 以 互 换 使 用 。 用 于 List 也 可 用 
于 ArrayList ， LinkedList ， 或 实现 List 的 其 它 任何 对 象 。 


这 是 一 个 人 为 的 示例 ， 展 示 了 这 一 点 : 


publie declass ListClientExample { 
private List list; 


publrie rstcLlrenteExamnple(y 
list = new LinkedList(); 
} 


privates ist oetlnst() { 
return list; 
} 


public static void main(String[] args) { 
ListclientExample lce = new ListCclientExample(); 
List list = lce.getList(); 
System.out.println(1ist); 


ListclientExample 没有 任何 有 用 的 东西 ， 但 它 封 装 了 st， 并 具有 一 个 类 的 基本 要 素 。 也 
就 是 说 ， 它 包含 一 个 List 实例 变量 。 我 会 使 用 这 个 类 来 表达 这 个 要 点 ， 然 后 你 将 在 第 一 个 练 
习 中 使 用 它 。 
通过 实例 化 (也 就 是 创建 ) 新 的 LinkedList ， 这 个 ListclientExample 构造 函数 初始 
化 list ; 读 取 器 方法 叫做 getList ， 返 回 内 部 List 对 象 的 引用 ; 并 且 main 包含 几 行 代码 
来 测试 这 些 方法 。 


这 个 例子 的 要 点 是 ， 它 尽 可 能 地 使 用 List ， 人 避免 指定 LinkedList ， ArrayList ， 除非 有 必 
要 。 例 如 ， 实 例 变量 被 声明 为 List ， 并 且 getList 返回 List ， 但 都 不 指定 哪 种 类 型 的 列 
表 。 


如 果 你 改变 主意 并 决定 使 用 ArrayList ， 你 只 需要 改变 构造 函数 ; 你 不 必 进 行 任何 其 他 更 改 。 


这 种 风格 被 称 为 基于 接口 的 编程 ， 或 者 更 随意 ，" 面 向 接口 编程 ”( 见 
http://thinkdast.com/interbaseprog) 。 这 里 我 们 谈论 接口 的 一 般 思想 ， 而 不 是 Java 接口 。 


当 你 使 用 库 时 ， 你 的 代码 只 依赖 于 类 似 “ 列 表 ” 的 接口 。 它 不 应 该 依赖 于 一 个 特定 的 实现 ， 
像 ArrayList 。 这 样 ， 如 果 将 来 的 实现 发 生变 化 ， 使 用 它 的 代码 仍然 可 以 工作 。 

另 一 方面 ? 如 果 接 口 改 变 9 依赖 于 它 的 代码 也 必须 改变 这 就 是 为 什么 库 的 开发 人 员 避 免 更 
改 接口 ， 除 非 绝 对 有 必要 。 


4 练习 1 


因为 这 是 第 一 个 练习 ， 我 们 会 保持 简单 。 你 将 从 上 一 节 获 取代 码 并 交换 实现 ; 也 就 是 说 ， 你 
会 将 LinkedList 替换 为 ArrayList 。 因 为 面向 接口 编写 程序 ， 你 将 能 够 通过 更 改 一 行 并 添加 
一 个 import 语 名 来 交换 实现 。 


以 建立 你 的 开发 环境 来 开始 。 对 于 所 有 的 练习 ， 你 需要 能 够 编译 和 运行 Java 代码 。 我 使 用 
JDK7 来 开发 示例 。 如 果 你 使 用 的 是 更 新 的 版 本 ， 则 所 有 内 容 都 应 该 仍然 可 以 正常 工作 。 如 果 
你 使 用 的 是 旧版 本 ， 可 能 会 发 现 菜 些 东 西 不 兼容 。 


我 建议 使 用 交互 式 开发 环境 (IDE) 来 获取 语法 检查 ， 自 动 完 成 和 源 代码 重 构 。 这 些 功能 可 帮 
助 你 避免 错误 或 快速 找到 它们 。 但 是 ， 如 果 你 正在 准备 技术 面试 ， 请 记 住 ， 在 面试 期 间 你 不 
会 拥有 这 些 工 具 ， 因 此 你 也 可 以 在 没有 他 们 的 情况 下 练习 编写 代码 。 


如 果 你 尚未 下 载 本 书 的 代码 ， 请 参阅 0.1 节 中 的 指南 。 
在 名 为 code 的 目录 中 ， 你 应 该 找到 这 些 文件 和 目录 : 


© build.xml JE Ant 文件 ， 可 以 更 容易 地 编译 和 运行 代码 。 
e。 1ib 包含 你 需要 的 库 (对 于 这 个 练习 ， 只 是 JUnit) 。 
e@ src 包含 oe 9 


如 果 你 浏览 src/com/allendowney/thinkdast ， 你 将 找到 此 练习 的 源 代 码 : 


e ListCclientExample.java 包含 上 一 节 的 代码 。 


© ListcCclientExampleTest.java 包含 一 个 JUnit 测试 ListCclientExample ° 


查看 ListclientExample 并 确保 你 了 解 它 的 作用 。 然 后 编译 并 运行 它 。 如 果 你 使 用 Ant， 你 可 
以 访问 代码 目录 并 运行 ant ListclientExample 。 


你 可 能 会 得 到 一 个 警告 。 


List is a raw type. References to generic type List<E> 
should be parameterized. 


为 了 使 这 个 例子 保持 简单 ， 我 没有 留意 在 列表 中 指定 元 素 的 类 型 。 如 果 此 警告 让 你 烦恼 ， 你 
可 以 通过 将 List 或 LinkedList 替换 为 List<Integer> 或 LinkedList<Integer> 来 修复 人 


回顾 ListClientExampleTest “ 它 运行 一 个 测试 ， 创 建 一 个 ListClientEXxample ， 调 
用 getList ， 然后 检查 结果 是 否 是 一 个 站 。 最 初 ， 这 个 测试 会 失败 ， 因 为 结果 是 一 
个 LinkedList ， 而 不 是 一 个 ArrayList 。 运 和 个 测试 并 确认 它 失 败 。 


注意 : 这 个 测试 对 于 这 个 练习 是 有 意义 的 ， 但 它 不 是 测试 的 一 个 很 好 的 例子 。 良 好 的 测试 应 
该 检查 被 测 类 是 否 满 足 接 口 的 要 求 ; 他 们 不 应 该 依赖 于 实现 的 细节 。 


在 ListClientExamp]e 中 ， 将 LinkedList 替换 为 ArrayList ° 你 可 能 需要 添加 一 个 import 语 

名 。 编 译 并 运行 ListclientExample 。 然 后 再 次 运行 测试 。 修 改 了 这 个 之 后 ， 测 试 现在 应 该 通 
过 了 。 

为 了 这 个 此 测试 通过 ， 你 只 需要 在 构造 函数 中 更 改 LinkedList ; 你 不 必 更 改 任何 List 出 现 

的 地 方 。 如 果 你 这 i ?2 来 吧 ， 将 一 个 或 者 多 个 List 替换 为 ArrayList ° 程序 仍 
然 可 以 正常 工作 ， 但 现在 是 “过 度 指定 * 了 。 如 果 你 将 来 改变 主意 ， 并 希望 再 次 交换 接口 ， 则 必 
须 更 改 代码 。 


在 ListClientEXxamp]e 构造 函 数 中 ， ， 如 果 将 ArrayList 替换 为 st ， 会 发 生 什 么 2 为 什么 不 
能 实例 化 List ? 


族 一 立 管 汗 八 
第 二 草 算法 分 析 
原文 : Chapter 2 Analysis of Algorithms 
译 者 : 飞龙 
自豪 地 采用 谷歌 翻译 


我 们 在 前 面 的 章节 中 看 到 ，Java 提供 了 两 种 List 接口 的 实现 ， ArrayList 和 LinkedList 。 
对 于 一 些 应 用 ， LinkedList 更 快 ; 对 于 其 他 应 用 ， ArrayList 更 快 。 


要 确定 对 于 特定 的 应 用 ， 哪 一 个 更 好 ， 一 种 方法 是 尝试 它们 ， 并 看 看 它们 需要 多 长 时 间 。 这 
种 称 为 “性 能 分 析 "的 方法 有 一 些 问题 : 


。 在 比较 算法 之 前 ， 你 必须 实现 这 两 个 算法 。 

。 结果 可 能 取决 于 你 使 用 什么 样 的 计算 机 。 一 种 算法 可 能 在 一 台 机 器 上 更 好 ; 另 一 个 可 能 
在 不 同 的 机 器 上 更 好 。 

e 结果 可 能 取决 于 问题 规模 或 作为 输入 提供 的 数据 。 


我 们 可 以 使 用 算法 分 析 来 解决 这 些 问题 中 的 一 些 问 题 。 当 它 有 效 时 ， 算 法 分 析 使 我 们 可 以 比 
较 算 法 而 不 必 实 现 它们 。 但 是 我 们 必须 做 出 一 些 假设 : 


。 为 了 避免 处 理 计算 机 硬件 的 细节， 我 们 通常 会 识别 构成 算法 的 基本 操作 ， 如 加 法 ， 和 来 法 
和 数字 比较， 并 计算 每 个 算法 所 需 的 操作 次 数 。 

。 为 了 避免 处 理 输入 数据 的 细节 ， 最 好 的 选择 是 分 析 我 们 预期 输入 的 平均 性 能 。 如 果 不 可 
能 ， 一 个 常见 的 选择 是 分 析 最 坏 的 情况 。 

。 最 后 ， 我 们 必须 处 理 一 个 可 能 性 ， 一 种 算法 最 适合 小 问题 ， 另 一 个 算法 适用 于 较 大 的 问 
题 。 在 这 种 情况 下 ， 我 们 通常 专注 于 较 大 的 问题 ， 因 为 小 问题 的 差异 可 能 并 不 重要 ， 但 
对 于 大 问题 ， 差 异 可 能 是 巨大 的 。 


这 种 分 析 适 用 于 简单 的 算法 分 类 。 例 如 ， 如 果 我 们 知道 算法 A 的 运行 时 间 通 常 与 输入 规模 成 
正比 ， 即 n ， 并 且 算 法 B 通常 与 n ** 2 成 比例 ， 我 们 预计 A 比 B 更 快 ， 至 少 对 于 n 的 较 
大 值 。 


大 多 数 简单 的 算法 只 能 分 为 几 类 。 


。 常数 时 间 : 如 果 运 行 时 间 不 依赖 于 输入 的 大 小 ， 算 法 是 “常数 时 间 ”。 例 如 ， 如 果 你 有 一 
个 n 个 元 素 的 数组 ， 并 且 使 用 下 标 运算 符 ( [] ) 来 访问 其 中 一 个 元 素 ， 则 此 操作 将 执 
行 相同 数量 的 操作 ， 而 不 管 数组 有 多 大 。 

e@ 线性 : 如 果 运 行 时 间 与 输入 的 大 小 成 正比 ， 则 算法 为 “线性 "的 。 例 如， 如 果 你 计算 数组 的 
和 ， 则 必须 访问 n 个 元 素 并 执行 n - 1 个 添加 。 操 作 的 总 数 (元 素 访 问 和 加 法 ) 

为 2*n-1， 与 n 成 正比 。 


@ 平方 : 如 果 运 行 时 间 与 n ** 2 成 正比 ， 算 法 是 “平方 "的 。 例 如 ， 假 设 你 要 检查 列表 中 的 
任何 元 素 是 否 多 次 出 现 。 一 个 简单 的 算法 是 将 每 个 元 素 与 其 他 元 素 进 行 比 较 。 如 果 
有 n 个 元 素 ， 并 且 每 个 元 素 与 n - 1 个 其 他 元 素 进行 比较 ， 则 比较 的 总 数 
是 n**2-n ， 随 着 n 增长 它 与 n ** 2 成 正比 。 


2.1 选择 排 友 
例如 ， 这 是 一 个 简单 算法 的 实现 ， 叫 做 “选择 排序 ”( 请 见 http://thinkdast.com/selectsort) 


publiue class SelectlionSoret 


ee 
* Swaps the elements at indexes i and j. 
7 
publie statre vo swapELlements(Gunt Dl array nt gg Me 
Int temp = array[i]; 
array[i] array[j]; 
array[j] temp; 


大 类 家 
*"Finds the index of the lowest value 
* starting from the index at start (inclusive) 
* and going to the end of the array. 
2 
publric static ant andexEowest(Lnt Narray nt start)e te 
int lowIndex = start; 
for (int i = start; i < array.length; i++) { 
if (array[i] < array[lowIndex]) { 
JowIndex = i; 
} 
} 


return lowIndex; 
} 
ee 
* Sorts the elements (in place) using selection sort. 
7 
publie statrec vo selectionsort(Lne parray) 
for (int i = 0; i < array.length; i++) { 
int j = indexLowest(array, i); 
swapElements(array, i, j); 


第 一 个 方法 swapElements 交换 数组 的 两 个 元 素 。 元 素 的 是 常数 时 间 的 操作 ， 因 为 如 果 我 们 知 
道 元 素 的 大 小 和 第 一 个 元 素 的 位 置 ， 我 们 可 以 使 用 一 个 乘法 和 一 个 加 法 来 计算 任何 其 他 元 素 
的 位 置 ， 这 都 是 常数 时 间 的 操作 。 由 于 swapElements 中 的 一 切 都 是 恒定 的 时 间 ， 整 个 方法 是 
恒定 的 时 间 。 


第 二 个 方法 IndexLowest 从 给 定 的 索引 Start 开始 找到 数组 中 最 小 元 素 的 索引 每 次 遍历 
循环 的 时 候 ， 它 访问 数组 的 两 个 元 素 并 执行 一 次 比较 。 由 于 这 些 都 是 常数 时 间 的 操作 ， 因 此 
我 们 计算 什么 并 不 重要 。 为 了 保持 简单 ， 我 们 来 计算 一 下 比较 的 数量 。 


e@ 如 果 start 为 0 ， 则 indexLowest 遍历 整个 数组 ， 并 且 比 较 的 总 数 是 数组 的 长 度 ， 我 称 


之 为 n° 
e@。 如果 start 为 1 ， 则 比较 数 为 n -1。 
e 一 般 情况 下 ， 上 比较 的 次 数 是 n - start ， 因 此 indexLowest 是 线性 的 。 


第 三 个 方法 selectionsort 对 数组 进行 排序 。 它 从 9 循环 到 n - 1 ， 所 以 循环 执行 了 n 次 。 
每 次 调用 indexLowest 然后 执行 一 个 常数 时 间 的 操作 swapElements 。 


第 一 次 indexLowest 被 调用 的 时 候 ， 它 进行 n 次 比较 。 第 二 次 ， 它 进行 n - 1 比较 ， 依 此 类 
推 。 比 较 的 总 数 是 


mn 0 


这 个 数列 的 和 是 n(n+1)/2 ， 它 (近似 ) 与 n ** 2 成 正比 ;这 意味 着 selectionsort 是 平方 
的 。 


为 了 得 到 同样 的 结果 ， 我 们 可 以 将 indexLowest 看 作 一 个 虞 套 循环 。 每 次 调 
用 indexLowest 时 ， 操 作 次 数 与 n 成 正比 。 我 们 调用 它 n 次 ， 所 以 操作 的 总 数 与 n ** 2 成 
正比 。 


2.2 大 〇 表示 法 


所 有 常数 时 间 算 法 属于 称 为 0(1) 的 集合 。 所 以 ， 说 一 个 算法 是 常数 时 间 的 另 一 个 方法 就 是 ， 
说 它 是 0(1) 的 。 与 之 类 似 ， 所 有 线性 算法 属于 o(n) ， 所 有 二 次 算法 都 属于 o(n ** 2) 。 这 
种 分 类 算法 的 方式 被 称 为 “大 O 表示 法 ”。 


注意 : 我 提供 了 一 个 大 O 符号 的 非 专业 定义 。 更 多 的 数学 处 理 请 参见 
http://thinkdast.com/bigo 。 


这 个 符号 提供 了 一 个 方便 的 方式 ， 来 编写 通用 的 规则 ， 算法 在 我 们 构造 它们 时 的 行为 。 
例如 ， 如 果 你 执行 线性 时 间 算 法 ， 之 后 是 常量 算法 ， 则 总 运行 时 间 是 线性 的 。 6e 表示 “是 ... 的 
成 员 ” 


f € O(n) && yg € 0(1) =>f+geE€ 0(n) 


如 果 执 行 两 个 线性 运算 ， 则 总 数 仍然 是 线性 的 : 


f € O(n) && yg € 0(n) => f+gE€ 0(n) 


事实 上 ， 如 果 你 执行 任何 次 数 的 线性 运算 ，k ， 总 数 就 是 线性 的 ， 只 要 k 是 不 依赖 于 n 的 
常数 。 


f € 0(n) && k 是 常数 => kf € 0(n) 


但 是 ， 如 果 执 行 n 次 线性 运算 ， 则 结果 为 平方 : 


feoln) => nf € O(n ** 2) 


一 般 来 说 ， 我 们 只 关心 n 的 最 大 指数 。 所 以 如 果 操 作 总 数 为 2 * n + 1 ， 则 属于 o(n) 。 主 
要 常数 2 和 附加 项 1 对 于 这 种 分 析 并 不 重要 。 与 之 类 
似 ，n ** 2+100* n+1000 是 0(n ** 2) 的 。 不 要 被 大 的 数值 分 心 ! 


“增长 级 别 ?是 同一 概念 的 另 一 个 名 称 。 增 长 级 别 是 一 组 算法 ， 其 运行 时 间 在 同一 个 大 O 分 类 
中 ; 例如 ， 所 有 线性 算法 都 属于 相同 的 增长 级 别 ， 因 为 它们 的 运行 时 间 为 0(n) 。 


在 这 种 情况 下 ，“ 级 别 ?是 一 个 团体 ， 像 圆桌 骑士 的 阶级 ， 这 是 一 群 骑士 ， 而 不 是 一 种 排队 方 
式 。 因 此 ， 你 可 以 将 线性 算法 的 阶级 设想 为 一 组 勇敢 ， 仗 义 ， 特 别 有 效 的 算法 。 


2.3 练习 2 


本 章 的 练习 是 实现 一 个 List ， 使 用 Java 数组 来 存储 元 素 。 
在 本 书 的 代码 库 〈 请 参阅 0.1 节 ) 中 ， 你 将 找到 你 需要 的 源 文件 : 


@ MyArrayList.java 包含 List 接口 的 部 分 实现 有 其 中 四 个 方法 是 不 完 整 的 ; 你 的 工作 是 雪 填 
充 他 们 。 
e MyArrayListTest.java 包含 JUnit 测试 ， 可 用 于 检查 你 的 工作 。 


你 还 会 发 现 Ant 构建 文件 puild.xml 。 你 应 该 可 以 从 代码 目录 运行 ant MyArrayList ， 来 运 


行 MyArrayList.java ， 其 中 包含 一 些 简单 的 测试 。 或 者 你 可 以 运行 ant MyArrayListTest 运行 
JUnit 测试 。 


当 你 运行 测试 时 ， 其 中 几 个 应 该 失败 。 如 果 你 检查 源 代码 ， 你 会 发 现 四 条 TODO 注释 ， 表 示 
你 应 该 填充 的 方法 。 


在 开始 填充 缺少 的 方法 之 前 ， 让 我 们 来 看 看 一 些 代 码 。 这 里 是 类 定义 ， 实 例 变 量 和 构造 函 
数 。 


public class MyArrayList<E> implements List<E> { 
Mn SzZey // keeps track of the number of elements 
private E[] array; AStores the elements 


public MyArrayList() { 


array = (E[]) new Object[10]; 
size = 0) 


正如 注释 所 述 ，size 跟踪 MyArrayList 中 由 多 少 元 素 ， 而 且 array 是 实际 包含 的 元 素 的 数 
组 。 


构造 函数 创建 一 个 10 个 元 素 的 数组 ， 这 些 元 素 最 初 为 null ， 并 且 size 设 为 0 。: 大 多 数 时 
候 ， 数 组 的 长 度 大 于 size ， 所 以 数组 中 由 未 使 用 的 楼。 


Java 的 一 个 细节 : 你 不 能 使 用 类 型 参数 实例 化 数组 ; 例如 ， 这 样 不 起 作用 : 


array = new E [10]; 


要 解决 此 限制 ， 你 必须 实例 化 一 个 object 数组 ， 然 后 进行 类 型 转换 。 你 可 以 在 
http://thinkdast.com/generics 上 阅读 此 问题 的 更 多 信息 。 


接 下 来 ， 我 们 将 介绍 添加 元 素 到 列表 的 方法 : 


public boolean add(E element) { 

if (size >= array.length) { 
// make a bigger array and copy over the elements 
E[] bigger = (E[]) new Object[array.length * 2]; 
System.arraycopy(array, 0, bigger, 0, array.length); 
array = bigger; 

array[Size] = element; 

Sizet+; 

meturn termue, 


如 果 数 组 中 没有 未 使 用 的 空间 ， 我 们 必须 创建 一 个 更 大 的 数组 ， 并 复制 这 些 元 素 。 然 后 我 们 
可 以 将 元 素 存储 在 数组 中 并 递增 size 。 


为 什么 这 个 方法 返回 一 个 布尔 值 ， 这 可 能 不 明显 ， 因 为 它 似乎 总 是 返回 true 。 像 之 前 一 样 ， 
你 可 以 在 文档 中 找到 答案 : http://thinkdast.com/colladd。 如 何 分 析 这 个 方法 的 性 能 也 不 明 

显 。 在 正常 情况 下 ， 它 是 常数 时 间 的 ， 但 如 果 我 们 必须 调整 数组 的 大 小 ， 它 是 线性 的 。 我 将 
在 3.2 节 中 介绍 如 何 处 理 这 个 问题 。 


最 后 ， 让 我 们 来 看 看 get ; 之 后 你 可 以 开始 做 这 个 练习 了 。 


pubilrerm getGnt ndex de 
if (index < 0 || index >= size) { 
throw new IndexOutofBoundsException(); 


return array[index]; 


其 实 get 很 简单 : 如 果 索 引 超 出 范围 ， 它 会 抛 出 异常 ; 否则 读 取 并 返回 数组 的 元 素 。 注 意 ， 它 
检查 索引 是 否 小 于 size ， 大 于 等 于 array.length ， 所 以 它 不 能 访问 数组 的 未 使 用 的 元 素 。 


在 MyArrayList.java 中 ， 你 会 找到 set 的 桩 ， 像 这 样 : 


public T set(int index, T element) { 
// TODO: fill in this method. 
met ur mem 


阅读 set 的 文档 ， 在 http:Wthinkdast.comylistset ， 然 后 填充 此 方法 的 主体 。 如 果 再 运 
行 MyArrayListTest ， testSet 应 该 通过 。 


提示 : 尽量 避免 重复 索引 检查 的 代码 。 


你 的 下 一 个 任务 是 填充 indexof 。 像 往常 一 样 ， 你 应 该 阅读 http://thinkdast.com/listindof 上 的 
文档 ， 以 便 你 知道 应 该 做 什么 。 特 别 要 注意 它 应 该 如 何 处 理 null 。 


我 提供 了 一 个 辅助 方法 equals ， 它 将 数组 中 的 元 素 与 目标 值 进行 比较 ， 如 果 它 们 相等 ， 返 
回 true (并 且 正 确 处 理 null ) ， 则 返回 。 请 注意 此 方法 是 私有 的 5 因为 它 仅 在 此 类 中 使 
用 ; 它 不 是 List 接口 的 一 部 分 


完成 后 ， 再 次 运行 MyArrayListTest ; testIndexof ， 以 及 依赖 于 它 的 其 他 测试 现在 应 该 通过 。 


只 剩 下 两 个 方法 了 ， 你 需要 完成 这 个 练习 。 下 一 个 是 add 的 重 载 版 本 ， 它 接受 下 标 并 将 新 值 
存储 在 给 定 的 下 标 处 ， 如 果 需 要 ， 移 动 其 他 元 素来 腾 出 空间 。 

再 次 阅读 http://thinkdast.com/listadd 上 的 文档 ， 编 写 一 个 实现 ， 并 运行 测试 进行 确认 。 

提示 : 避免 重复 扩充 数组 的 代码 。 


J 
最 后 一 个 : 填充 remove 的 主体 。 文 档 位 于 http://thinkdast.com/listrrem 。 当 你 完成 它 时 ， 所 有 
的 ee 该 通过 。 


一 旦 你 的 实现 能 够 工作 ， 将 其 与 我 的 比较 ， 你 可 以 在 http://thinkdast.com/myarraylist 上 找到 


它 。 


第 三 草 ArrayList 


原文 : Chapter 3 ArrayList 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


本 章 一 举 两 得 : 我 展示 了 上 一 个 练习 的 解法 ， 并 展示 了 一 种 使 用 摊 销 分 析 来 划分 算法 的 方 
法 。 


3.1 划分 MyArrayList 的 方法 


对 于 许多 方法 ， 我 们 不 能 通过 测试 代码 来 确定 增长 级 别 。 例 如 ， 这 里 
是 MyArrayList 的 get 的 实现 : 


publnicdeEd get(unt nd 
if (index < 0 || index >= size) { 
throw new IndexOutofBoundsException(); 
} 


return array[index]; 


get 中 的 每 个 东西 都 是 常数 时 间 的 。 所 以 get 是 常数 时 间 ， 没 问题 。 


现在 我 们 已 经 划分 了 get ， 我 们 可 以 使 用 它 来 划分 set 。 这 是 我 们 以 前 的 练习 中 的 set 


pubLred Ee setonnt index Ee element) et 
E old = get(index); 
array[index] = element; 
return old; 


该 解决 方案 的 一 个 有 些 机 智 的 部 分 是 ， 它 不 会 显 式 检查 数组 的 边界 ; 它 利 用 get ， 如 果 索 引 
无 效 则 引发 异常 。 


set 中 的 一 切 ， 包 括 get 的 调用 都 是 常数 时 间 ， 所 以 set 也 是 常数 时 间 。 


接 下 来 我 们 来 看 一 些 线性 的 方法 。 例 如 ， 以 下 是 我 的 实现 indexof 


pUblacantandexottobJecttarget 下 二 
for (int i = 0; i<size; I++) { 
If (equals(target, array[i])) { 
return i; 
} 
} 


eum 


每 次 在 循环 中 ， indexof 调用 equals ， 所 以 我 们 首先 要 划分 equals 。 这 里 就 是 : 


private boolean equals(Object target, Object element) { 


If (target == null) { 
return element == null; 


} else { 
return target.equals(element); 
由 


这 个 方法 的 运行 时 间 可 能 取决 于 target 或 element 的 大 小 ， 但 


此 方法 调用 target.equals ; 
是 常数 时 间 。 


它 不 依赖 于 该 数组 的 大 小 ， 所 以 出 于 分 析 indexof 的 目的 ,我 们 认为 这 


回 到 之 前 的 indexof ， 循 环 中 的 一 切 都 是 常数 时 间 ， 所 以 我 们 必须 考虑 的 下 一 个 问题 是 : 循 


环 执行 多 少 次 ? 
如 果 我 们 幸运 ， 我 们 可 能 会 立即 找到 目标 对 象 ， 并 在 测试 一 个 元 素 后 返回 。 如 果 我 们 不 幸 ， 
我 们 可 能 需要 测试 所 有 的 元 素 。 平 均 来 说 ， 我 们 预计 测试 一 半 的 元 素 ， 所 以 这 种 方法 被 认为 
是 线性 的 (除了 在 不 太 可 能 的 情况 下 ， 我 们 知道 目标 元 素 在 数组 的 开头 ) 。 


remove 的 分 析 也 类 似 。 这 里 是 我 的 时 间 。 


public E remove(int index) { 
E element = get(index); 
for (int i=index; i<size-1; i++) { 
array[i] = array[i+1]; 


Size--; 
return element; 
} 
它 使 用 get ， 常数 时 间 ， 然 后 从 index 开始 遍历 数组 。 如 果 我 们 删除 列表 末尾 的 元 素 ， 


常数 时 间 。 如 果 我 们 删除 第 一 个 元 素 ， 我 们 遍历 所 有 剩 下 的 


循环 永远 es ， 这 个 方法 是 
元 素 ， 它 们 是 线性 的 。 因 此 ， ee 是 线性 的 〈 除 了 在 特殊 情况 下 ， 我 们 知道 


元 素 在 末尾 ， 或 到 末尾 距离 恒定 ) 。 


3.2 add 的 划分 


这 里 是 add 的 一 个 版 本 ， 接 受 下 标 和 元 素 作 为 参数 : 


puUblancevondkaddtanmesndex Evelement) ed 
If (index < 0 || index > size) { 
throw new IndexOutofBoundsException(); 


// add the element to get the resizing 
add(eJement ); 


/shiftrthne other elements 
for (int i=size-1; i>index; i--) { 
array[i] = array[i-1]; 


// put the new one in the right place 
array[index] = element; 


这 个 双 参 数 的 版 本 ， 叫 做 add(int，E) ， 它 使 用 了 单 参数 的 版 本 ， 称 为 add(E) ， 它 将 新 的 元 
素 放 在 最 后 。 然 后 它 将 其 他 元 素 向 右 移动 ， 并 将 新 元 素 放 在 正确 的 位 置 。 


在 我 们 可 以 划分 双 参 数 add 之 前 ， 我 们 必须 划分 单 参 数 add 


public boolean add(E element) { 

if (size >= array.length) { 
// make a bigger array and copy over the elements 
E[] bigger = (E[]) new Object[array.length * 2]; 
System.arraycopy(array, 0, bigger, 0, array.length); 
array = bigger; 

} 

array[Size] = element; 

SIZe++， 

eurnEEUe 


单 参数 版 本 很 难 分 析 。 如 果 数 组 中 存在 未 使 用 的 空间 ， 那 么 它 是 常数 时 间 ， 但 如 果 我 们 必须 
调整 数组 的 大 小 ， 它 是 线性 的 ， 因 为 system.arraycopy 所 需 的 时 间 与 数组 的 大 小 成 正比 。 


那么 add 是 常数 还 是 线性 时 间 的 ?我 们 可 以 通过 考虑 一 系列 n 个 添加 中 ， 每 次 添加 的 平均 操 
作 次 数 ， 来 分 类 此 方法 。 为 了 简单 起 见 ， 假 设 我 们 以 一 个 有 2 个 元 素 的 空间 的 数组 开始 。 


。 我 们 第 一 次 调用 add 时 ， 它 会 在 数组 中 找到 未 使 用 的 空间 ， 所 以 它 存储 1 个 元 素 。 


@ 第 二 次 ? 它 在 数组 中 找到 未 使 用 的 空 间 ， 所 以 它 存储 个 元 素 。 
。 第 三 次 ， 我 们 必须 调整 数组 的 大 小 ， 复 制 2 个 元 素 ， 并 存储 1 个 元 素 。 现 在 数组 的 大 小 
是 4。 


e@ 第 四 次 存储 1 个 元 素 。 

。 第 五 次 调整 数组 的 大 小 ， 复 制 4 个 元 素 ， 并 存储 1 个 元 素 。 现 在 数组 的 大 小 是 8 。 
e。 接 下 来 的 3 个 添加 储存 3 个 元 素 。 

。 下 一 个 添加 复制 8 个 并 存储 1 个 。 现 在 的 大 小 是 16 。 

。 接 下 来 的 7 个 添加 复制 了 7 个 元 素 。 


e@ 4 次 添加 之 后 ， 我 们 储存 了 4 个 元 素 ， 并 复制 了 两 个 。 
e。 8 次 添加 之 后 ， 我 们 储存 了 8 个 元 素 ， 并 复制 了 6 个 。 


e。 16 次 添加 之 后 ， 我 们 储存 了 16 个 元 素 ， 并 复制 了 14 个 。 


现在 你 应 该 看 到 了 规律 : 要 执行 n 次 添加 ， 我 们 必须 存储 n 个 元 素 并 复制 n-2 个 。 所 以 操 
作 总 数 为 n+n-2 ;为 BR > 


为 了 得 到 每 个 添加 的 平均 操作 次 数 ， 我 们 将 总 和 除 以 n ; 结果 是 2- 2/n 。 随 着 n 交大 ， 
第 二 项 2 / n 变 小 。 参 考 我 们 只 关心 n 的 最 大 指数 的 原则 ， 我 们 可 以 认为 add 是 常数 时 间 
的 。 


有 时 线性 的 算法 平均 可 能 是 常数 时 间 ， 这 似乎 是 奇怪 的 。 关 键 是 我 们 每 次 调整 大 小 时 都 加 信 
了 数组 的 长 度 。 这 限制 了 每 个 元 素 被 复制 的 次 数 。 否 则 - 如 果 我 们 向 数组 的 长 度 添加 一 个 固定 
的 数量 ， 而 不 是 乘 以 一 个 国定 的 数量 - 分 析 就 不 起 作用 。 


这 种 划分 算法 的 方式 ， 通 过 计算 一 系列 调用 中 的 平均 时 间 ， 称 为 推销 分 析 。 你 可 以 在 
http://thinkdast.com/amort 上 阅读 更 多 信息 。 重 要 的 想法 是 ， 复 制 数组 的 额外 成 本 是 通过 一 系 
列 调用 展开 或 “ 挫 销 ”的 。 


现在 ， 如 果 add(E) 是 常数 时 间 ， 那 么 add(int，E) 呢 ? 调 用 add(E) 后 ， 它 遍历 数组 的 一 部 
分 并 移动 元 素 。 这 个 循环 是 线性 的 ， 除 了 在 列表 末尾 添加 的 特殊 情况 中 。 因 此 ， 
add(int，E) 是 线性 的 。 


3.3 问题 规模 
最 后 一 个 例子 中 ， 我 们 将 考虑 removeAll ， 这 里 是 MyArrayList 中 的 实现 : 


public boolean removeAll(Collection<?> collection) { 
boolean flag = true; 
for (Object obj: collection) { 
flag &= remove(obj); 


return flag; 


每 次 循环 中 ， removeAll 都 调用 remove ， 这 是 线性 的 。 所 以 认为 removeAll 是 二 次 的 很 诱 
人 。 但 事实 并 非 如 此 。 


在 这 种 方法 中 ， 循环 对 于 每 个 collection 中 的 元 素 运行 一 次 。 如 果 collection 包含 m 个 元 
素 ， 并 且 我 们 从 包含 n 个 元 素 的 列表 中 删除 ， 则 此 方法 是 0(nm) 的 。 如 果 collection 的 大 小 
可 以 认为 是 常数 ， removeAll 相对 于 n 是 线性 的 。 但 是 ， 如 果 集 合 的 大 小 与 n 成 正 

比 ，removeAll 则 是 平方 的 。 例 如 ， 如 果 collection 总 是 包含 160 个 或 更 少 的 元 素 ， 
removeAl1 则 是 线性 的 。 但 是 ， 如 果 collection 通常 包含 的 列表 中 的 1% 元 

素 ， removeAll 则 是 平方 的 。 


当 我 们 谈论 问题 规模 时 ， 我 们 必须 小 心 我 们 正在 讨论 哪个 大 小 。 这 个 例子 演示 了 算法 分 析 的 
陷阱 : 对 循环 计数 的 诱 人 捷径 。 如 果 有 一 个 循环 ， 算 法 往往 是 线性 的 。 如 果 有 两 个 循环 (一 
个 谋 套 在 另 一 个 内 ) ， 则 该 算法 通常 是 平方 的 。 不 过 要 小 心 | 你 必须 考虑 每 个 循环 运行 多 少 


次 。 如 果 所 有 循环 的 迭代 次 数 与 n 成 正比 ， 你 可 以 仅仅 对 循环 进行 计数 之 后 离开 。 但 是 ， 如 
在 这 个 例子 中 ， 和 迭代 次 数 并 不 总 是 与 n 成 正比 ， 所 以 你 必须 考虑 更 多 。 


3.4 链接 数据 结构 


对 于 下 一 个 练习 ， 我 提供 了 List 接口 的 部 分 实现 ， 使 用 链表 来 存储 元 素 。 如 果 你 不 熟悉 链 
表 ， 你 可 以 阅读 http://thinkdast.com/linkedlist ， 但 本 部 分 会 提供 简要 介绍 。 


如 果 数 据 结构 由 对 象 (通常 称 为 “节点 ") 组 成 ， 其 中 包含 其 他 节点 的 引用 ， 则 它 是 "链接 "的 。 
在 链表 中 ， 每 个 节点 包含 列表 中 下 一 个 节点 的 引用 。 其 他 链接 结构 包括 树 和 图 ， 其 中 节点 可 
以 包含 多 个 其 他 节点 的 引用 。 


这 是 一 个 简单 节点 的 类 定义 : 


puUblnmcEclassalisENode 王 


public Object data; 
public ListNode next; 


pubilrnc ErstNode()  { 
this.data = null,; 
thassnexte = mu 


} 
public ListNode(Object data) { 


this.data = data,; 
thsmnexte = ml 


} 
public ListNode(Object data, ListNode next) { 


this.data = data,; 
this.next = next; 


} 


pubilier SerinogmntosEerno( et 
retuene ErstNode( radatantoSsernung( .0 
} 


该 ListNode 对 象 具有 两 个 实例 变量 : data 是 某 种 类 型 的 object 的 引用 ， 并 且 next 是 列表 
中 下 一 个 节点 的 引用 。 在 列表 中 的 最 后 一 个 节点 中 ， 按 照 惯 例 ， next 是 null 。 
ListNode 提供 了 几 个 构造 函数 ， 可 以 让 你 为 data 和 next 提供 值 ， 或 将 它们 初始 化 为 默认 
值 》 mu ° 
你 可 以 将 每 个 ListNode 看 作 具 有 单个 元 素 的 列表 ， 但 更 通常 ， 列 表 可 以 包含 任意 数量 的 节 
点 。 有 几 种 方法 可 以 制作 新 的 列表 。 一 个 简单 的 选项 是 ， 创 建 一 组 ListNode 对 和 象 ， 如 下 所 
示 : 

ListNode node1 


ListNode node2 
ListNode node3 


new ListNode(1); 
new ListNode(2); 
new ListNode(3); 


之 后 将 其 链接 到 一 起 ， 像 这 样 : 


node1.next = node2; 
node2 .next = node3; 
node3 .next = null; 


或 者 ， 你 可 以 创建 一 个 节点 并 将 其 链接 在 一 起 。 例 如 ， 如 果 要 在 列表 开头 添加 一 个 新 节点 
可 以 这 样 做 : 


ListNode node0 = new ListNode(9，node1) ; 





ListNode 


图 3.1 链表 的 对 象 图 


图 3.1 是 一 个 对 象 图 ， 展 示 了 这 些 变量 及 其 引用 的 对 象 。 在 对 象 图 中 ， 变 量 的 名 称 出 现在 杠 
内 ， 箭 头 显示 它们 所 引用 的 内 容 。 对 象 及 其 类 型 CL td ln 出 现在 框 外 面 。 


3.5 练习 3 


这 本 书 的 仓库 中 ， 你 会 找到 你 需要 用 于 这 个 练习 的 源 代码 : 


e。 MyLinkedList.java 包含 List 接口 的 部 分 实现 ， 使 用 链表 存储 元 素 。 
e MyLinkedListTest.java 包含 用 于 MyLinkedList 的 JUnit 测试 。 


运行 ant MyArrayList 来 运行 MyArrayList.java ， 其 中 包含 几 个 简单 的 测试 。 


然后 可 以 运行 ant MyArrayListTest 来 运行 JUnit 测试 。 其 中 几 个 应 该 失败 。 如 果 你 检查 源 代 
码 ， 你 会 发 现 三 条 TODO 注释 ， 表 示 你 应 该 卉 充 的 方法 。 


在 开始 之 前 ， 让 我 们 来 看 看 一 些 代码 。 以 下 是 MyLinkedList 的 实例 变量 和 构造 函数 : 


public class MyLinkedList<E> implements List<E> { 


private int size; // keeps track of the number of elements 
private Node head; reference to the furst node 


pubLlric MyBinkedLrst() 


head = null; 
size = 0; 


如 注释 所 示 ， size 跟踪 MyLinkedList 有 多 少 元 素 ; head 是 列表 中 第 一 个 Node 的 引用 ， 或 
者 如 果 列 表 为 空 则 为 null 。 

存储 元 素数 量 不 是 必需 的 ， 并 且 一 般 来 说 ， 保 留 宛 余 信 息 是 有 风险 的 ， 因 为 如 果 没 有 正确 更 
新 ， 就 有 机 会 产生 错误 。 它 还 需要 一 点 点 额外 的 空间 。 


size ， 我 们 可 以 实现 常数 时 间 的 size 方法 ; 和 否则， 我 们 必须 遍历 列 
表 并 对 元 素 进 行 计 数 ， 这 需要 线性 时 间 。 


因为 我 们 显 式 存储 size 明确 地 存储 ， 每 次 添加 或 删除 一 个 元 素 时 ， 我 们 都 要 更 新 它 ， 这 样 一 
来 ， 这 些 方法 就 会 减 慢 ， 但 是 它 不 会 改变 它们 的 增长 级 别 ， 所 以 很 值得 。 


构造 函数 将 head 设 为 null， 表 示 空 列表 ， 并 将 size 设 为 0 。 


这 个 类 使 用 类 型 参数 E 作为 元 素 的 类 型 。 如 果 你 不 熟悉 类 型 参数 ， 可 能 需要 阅读 本 教 
程 : http:Wthinkdast.com/types。 


类 型 参数 也 出 现在 Node 的 定义 中 ， 许 套 在 MyLinkedList 里 面 : 


private class Node { 
public E data; 
public Node next; 


public Node(E data, Node next) { 


this.data data; 
this.next next; 


， Node 类 似 于 上 面 的 ListNode 。 


和 了 这 
最 后 ， 这 是 我 的 add 的 实现 : 


public boolean add(E element ) { 

If (head == null) { 
head = new Node(element); 

} else 
Node node = head; 
// loop until the last node 
for ( ; node.next != null; node = node.next) {} 
node.next = new Node(element); 


SIZe++， 
eturnnme ue, 


此 示例 演示 了 你 需要 的 两 种 解决 方案 : 


对 于 许多 方法 ， 作 为 特殊 情况 ， 我 们 必须 处 理 列表 的 第 一 个 元 素 。 在 这 个 例子 中 ， 如 果 我 们 
向 列表 添加 列表 第 一 个 元 素 ， 我 们 必须 修改 head 。 否 则 ， 我 们 遍历 列表 ， 找 到 末尾 ， 并 添加 
新 节点 。 此 方法 展示 了 ， 如 何 使 用 for 循环 遍历 列表 中 的 节点 。 在 你 的 解决 方案 中 ， 你 可 能 
会 在 此 循环 中 写 出 几 个 变 体 。 注 意 ， 我 们 必须 在 循环 之 前 声明 node ， 以 便 我 们 可 以 在 循环 之 
后 访问 它 。 


现在 轮 到 你 了 。 填 充 indexof 的 主体 。 像 往常 一 样 ， 你 应 该 阅读 文档 ， 位 于 
http:/thinkdast.comyistindof， 所 以 你 知道 应 该 做 什么 。 特别 要 注意 它 应 该 如 何 处理 null 。 


与 上 一 个 练习 一 样 ， 我 提供 了 一 个 辅助 方法 TE ， 它 将 数组 中 的 一 个 元 素 与 目标 值 进行 比 
较 ， 并 检查 它们 是 否 相 等 ， 并 正确 处 理 null 。 这 个 方法 是 私有 的 ， 因 为 它 在 这 个 类 中 使 用 ， 
但 它 不 是 List 接口 的 一 部 分 


完成 后 ， 再 次 运行 测试 ; testIndexof ， 以 及 依赖 于 它 的 其 他 测试 现在 应 该 通过 。 


接 下 来 ， 你 应 该 填充 双 参 数 版 本 的 add， 它 使 用 索引 并 将 新 值 存 储 在 给 定 索引 处 。 再 次 阅读 
http://thinkdast.com/listadd 上 的 文档 ， 编 写 一 个 实现 ， 并 运行 测试 进行 确认 。 


最 后 一 个 : 填写 remove 的 主体 。 文 档 在 这 里 : http://thinkdast.com/listrem。 当 你 完成 它 时 ， 
所 有 的 测试 都 应 该 通过 


一 旦 你 的 实现 能 够 工作 ， 将 它 与 仓库 solution 目录 中 的 版 本 比较 。 


3.6 垃圾 回收 的 注解 
在 MyArrayList 以 前 的 练习 中 ， 如 果 需 要 ， 数 字 会 增长 ， 但 它 不 会 缩小 。 该 数组 从 不 收集 垃 
圾 ， 并 且 在 列表 本 身 被 销毁 之 前 ， 元 素 不 会 收集 垃圾 。 


链表 实现 的 一 个 优点 是 ， 当 元 素 被 删除 时 它 会 缩小 ， 并 且 未 使 用 的 节点 可 以 立即 被 垃圾 回 
收 。 


这 是 我 的 实现 的 clear 方法 : 


pupyamcevomoulicleae 大 4 
head = null; 
size = 0; 


} 


当 我 们 将 head 设 为 null 时 ， 我 们 删除 第 一 个 Node 的 引用 。 如 果 没 有 其 他 Node 的 引用 (不 
应 该 有 ) ， 它 将 被 垃圾 收集 。 这 个 时 候 ， 第 二 个 Node 引用 被 删除 ， 所 以 它 也 被 垃圾 收集 。 此 
过 程 一 直 持 续 到 所 有 节点 都 被 收集 。 

那么 我 们 应 该 如 何 划 分 clear ? 该 方法 本 身 包 含 两 个 常数 时 间 的 操作 ， 所 以 它 看 起 来 像 是 常 

数 时 间 。 但 是 当 你 调用 它 时 ， 你 将 使 垃圾 收集 器 做 一 些 工作 ， 它 与 元 素数 成 正比 。 所 以 也 许 

我 们 应 该 将 其 认为 是 线性 的 | 

这 是 一 个 有 时 被 称 为 性 能 bug 的 例子 : 一 个 程序 做 了 正确 的 事情 ， 在 这 种 意义 上 它 是 正确 

的 ， 但 它 不 属于 我 们 预期 的 增长 级 别 。 在 像 Java 这 样 的 语言 中 ， 它 在 背后 做 了 大 量 工作 的 ， 
例如 垃圾 收集 ， 这 种 bug 可 能 很 难 找到 。 
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这 一 章 展 示 了 上 一 个 练习 的 解法 ， 并 继续 讨论 算法 分 析 。 


4.1 MyLinkedList 方法 的 划分 
我 的 indexof 实现 在 下 面 。 在 阅读 说 明之 前 ， 请 阅读 它 ， 看 看 你 是 否 可 以 确定 其 增长 级 别 。 


public int indexof(Object target) { 
Node node = head; 
for (int i=0; i<size; i++) { 
if (equals(target, node.data)) { 
return i; 
node = node.next,; 


eturnm ls 


最 初 node 为 head 的 副本 ， 所 以 他 们 都 指向 相同 的 Node 。 循 环 变量 i 从 0 计数 
到 size-1 。 每 次 在 循环 中 ， 我 们 都 用 equals 来 看 看 我 们 是 否 找 到 了 目标 。 如 果 是 这 样 ， 我 
们 立即 返回 i 。 否 则 我 们 移动 到 列表 中 的 下 一 个 Node 。 


通常 我 们 会 检查 以 确保 下 一 个 Node 不 是 null ， 但 在 这 里 ， 它 是 安全 的 ， 因 为 当 我 们 到 达 列 
表 的 末尾 时 循环 结束 (假设 与 列表 中 size 与 实际 节点 数量 一 致 ) 。 


如 果 我 们 走 完了 循环 而 没有 找到 目标 ， 我 们 返回 -1 。 
那么 这 种 方法 的 增长 级 别 是 什么 ? 
e@ 每 次 在 循环 中 ， 我 们 调用 了 equals ， 这 是 一 个 常数 时 间 ( 它 可 能 取决 
于 target 或 data 大 小 ， 但 不 取决 于 列表 的 大 小 ) 。 循 环 中 的 其 他 操作 也 是 常数 时 间 。 
。 循环 可 能 运行 n 次 ， 因 为 在 更 糟 的 情况 下 ， 我 们 可 能 必须 遍历 整个 列表 。 
所 以 这 个 方法 的 运行 时 间 与 列表 的 长 度 成 正比 。 
接 下 来 ， 这 里 是 我 的 双 参 数 add 方法 的 实现 。 同 样 ， 你 应 该 尝试 对 其 进行 划分 ， 然 后 再 阅读 
说 明 。 


pUblacevonduadudunmeeandex Erelement) ee 
if (index == 0) { 
head = new Node(element, head); 


} else 4 

Node node = getNode(index-1); 

node.next = new Node(element, node.next); 
多 
Sizet+; 


如 果 index==g ， 我 们 在 开始 添加 新 的 Node ， 所 以 我 们 把 它 A 况 。 否 则 ， 我 们 必须 
遍历 列表 来 查找 index-1 处 的 元 素 。 我 们 使 用 辅助 方法 getNode 


private Node getNode(int index) { 
if (index < 0 || index >= size) { 
throw new IndexOutofBoundsException(); 
Node node = head ， 
for (int i=0; i<index; I++) { 
node = node.next,; 


return node; 


getNode 检查 index 是 否 超出 范围 ; 如 果 是 这 样 ， 它 会 抛 出 异常 。 否 则 ， 它 遍历 列表 并 返回 
所 请 求 的 节点 。 


我 们 回 到 add ， 一 旦 我 们 找到 合适 的 Node ， 我 创建 新 的 Node ， 并 把 它 插 
到 node 和 node.next 之 间 。 你 可 能 会 发 现 ， 绘 制 此 操作 的 图 表 有 助 于 确保 你 了 解 此 操作 。 


那么 ，add 的 增长 级 别 什么 呢 ? 


e getNode 类 似 indexof ， 出 于 同样 的 原因 也 是 线性 的 。 
e 在 add 中 ， getNode 前 后 的 一 切 都 是 常数 时 间 。 


所 以 放 在 一 起 ， add 是 线性 的 。 


最 后 ， 我 们 来 看 看 _ remove 


public E remove(int index) { 
E element = get(index); 
if (index == 0) { 
head = head.next,; 


} else 
Node node = getNode(index-1); 
node.next = node.next.next,; 
由 
Size--， 


return element; 


remove 使 用 了 get 查找 和 存储 index 处 的 元 素 。 然后 它 删 除 包含 它 的 Node 。 


如 果 index==g9 ， 我 们 再 次 处 理 这 个 特殊 情况 。 否 则 我 们 找到 节点 index-1 并 进行 修改 ， 来 跳 
过 node.next 并 直接 链接 到 node.next.next 。 这 有 效 地 从 列表 中 删除 node.next ， 它 可 以 被 
垃圾 回收 。 

最 后 ， 我 们 减少 size 并 返回 我 们 在 开始 时 检索 的 元 素 。 

那么 ， remove 的 增长 级 别 是 什么 呢 ? remove 中 的 一 切 是 常数 时 间 ， 除 了 get 和 getNode ， 


它们 是 线性 的 。 因 此 ， remove 是 线性 的 。 


当 人 们 看 到 两 个 线性 操作 时 ， 他 们 有 时 会 认为 结果 是 平方 的 ， 但 是 只 有 一 个 操作 齿 套 在 另 一 
个 操作 中 才 适 用 。 如 果 你 在 一 个 操作 之 后 调用 另 一 个 ， 运 行 时 间 会 相 加 。 如 果 它 们 都 
是 o(n) 的 ， 则 总 和 也 是 o(n) 的 。 


4.2 MyArrayList 和 MyLinkedList 的 对 比 


下 表 总 结 了 MyArrayList 和 MyLinkedList 之 间 的 差异 ， 其 中 1 表示 0(1) 或 常数 时 间 ， 
和 nm 表示 0(n) 或 线性 。 


MyArrayList MyLinkedList 
add (末尾 ) 1 n 
adu( oT n 1 
add (一 般 ) n n 
get / set 1 n 
indexof / lastIndexoOf Nn 站 
isEmpty / size 1 1 
remove (末尾 ) ] n 
remove (开头) n 1 
remove ( 一 般 ) Nn Nn 


©® MyArrayList 的 优势 操作 是 ， 插 入 末尾 ， 移 除 末 尾 ， 获 取 和 设置 。 
e。 MyLinkedList 的 优势 操作 是 ， 插 入 开头 ， 以 及 移动 开头 。 


对 于 其 他 操作 ， 这 两 个 实现 方式 的 增长 级 别 相 同 。 


哪个 实现 更 好 ? 这 取决 于 你 最 有 可 能 使 用 哪些 操作 。 这 就 是 为 什么 Java 提供 了 多 个 实现 ， 因 
为 它 取 决 于 你 。 


4.3 性 能 分 析 


对 于 下 一 个 练习 我 提供 了 一 个 Profiler 类 2 它 包含 代码 2 使 用 一 系列 问题 规模 运行 方法 2 
测量 运行 时 间 和 绘制 结果 。 


你 将 使 用 profiler ， 为 Java 的 实现 ArrayList 和 LinkedList ， 划分 add 方法 的 性 能 。 


以 下 是 一 个 示例 ， 展 示 了 如 何 使 用 分 析 器 : 


public static void profileArrayListAddEnd() { 
Timeable timeable = new Timeable() { 
List<String> list; 


public void'setup(int n) { 
list = new ArrayList<String>(); 
} 


public void timeMe(int n) { 
or (nt 1 =O Tn tf 
list.add("a string"); 
} 


} 
}; 


String title = "ArrayList add end"; 
Profiler profiler = new Profiler(title, timeable); 


int StartN = 4000 ， 
int endMillis = 1000 


XYSeries series = profiler.timingLoop(startN, endMillis); 
profiler.plotResults(series); 


此 方法 测量 在 ArrayList 上 运行 add 所 需 的 时 间 ， 它 向 末尾 添加 新 元 素 。 我 将 解释 代码 ， 然 
后 展示 结果 。 


为 了 使 用 profiler ， 我 们 需要 创建 一 个 Timeable ， 它 提供 两 个 方 
法 : setup 和 timeMe 。 setup 方法 执行 在 启动 计时 之 前 所 需 的 任何 工作 ; 这 里 它 会 创建 一 个 
空 列 表 。 然 后 timeMe 执行 我 们 试图 测量 的 任何 操作 ; 这 里 它 将 n 个 元 素 添 加 到 列表 中 。 


创建 timeable 的 代码 是 一 个 匿名 类 ， 用 于 定义 Timeable 接口 的 新 实现 ， 并 同时 创建 新 类 的 
实例 。 如 果 你 不 熟悉 匿名 类 ， 你 可 以 阅读 这 里 : http://thinkdast.com/anonclass。 


但 是 下 一 次 练习 不 需要 太 多 的 知识 ; 即使 你 不 喜欢 匿名 类 ， 也 可 以 复制 和 修改 示例 代码 。 
下 一 步 是 创建 profiler 对象， 传递 Timeable 对 象 和 标题 作为 参数 。 


Profiler 提供 了 timingLoop ， 它 使 用 存储 为 实例 变量 的 Timeable 。 它 多 次 调用 Timeable 对 
象 上 的 timeMe 方法 ， 使 用 一 系列 的 n 值 。 timingLoop 接受 两 个 参数 : 


e startN 是 n 的 值 ， 计 时 循环 应 该 从 它 开 始 。 
e endMillis 是 以 毫秒 为 单位 的 阅 值 。 随 着 timingLoop 增加 问题 规模 ， 运 行 时 间 增 加 ; 当 
运行 时 间 超 过 此 阅 值 时 ， timingLoop 停止 。 


当 你 运行 实验 时 ， 你 可 能 需要 调整 这 些 参 数 。 如 果 startN 太 低 ， 运 行 时间 可 能 太 短 ， 无 法 准 
确 测量 。 如 果 endMillis 太 低 ， 你 可 能 无 法 获得 足够 的 数据 ， 来 查看 问题 规模 和 运行 时 间 之 
间 的 明确 关系 。 


这 段 代 码 位 于 profileListAdd.java ， 你 将 在 下 一 个 练习 中 运行 它 。 当 我 运行 它 时 ， 我 得 到 这 
个 输出 : 


1024000, 88 
2048000, 185 
4096000, 242 
8192000, 544 
16384000, 1325 


第 一 列 是 问题 规模 ，n ; 第 二 列 是 以 毫秒 为 单位 的 运行 时 间 。 前 几 个 测量 非常 噶 杂 ; 最 好 
将 startN 设置 在 64000 左右 。 


timingLoop 的 结果 是 包含 此 数据 的 xyseries 。 如 果 你 将 这 个 序列 传 给 plotResults ， 它 会 产 
生 一 个 如 图 4.1 所 示 的 图 形 。 


1000 


100 


Runtime (ms) 


10 





100000 1000000 10000000 
Problem size (n) 


图 4.1 分 析 结 果 : 将 n 个 元 素 添加 到 ArrayList 末尾 的 运行 时 间 与 问题 规模 
下 一 节 解 释 了 如 何 解 释 它 。 


4.4 解释 结果 


基于 我 们 对 ArrayList 工作 方式 的 理解 ， 我 们 期 望 ， 在 添加 元 素 到 最 后 时 ， add 方法 需要 党 
数 时 间 。 所 以 添加 n 个 元 素 的 总 时 间 应 该 是 线性 的 。 


为 了 测试 这 个 理论 ， 我 们 可 以 绘制 总 运行 时 间 和 问题 规模 ， 我 们 应 该 看 到 一 条 直线 ， 至 少 对 
于 大 到 足以 准确 测量 的 问题 规模 。 在 数学 上 ， 我 们 可 以 为 这 条 直线 编 we 


runtime = a + by* n 


其 中 a 是 线 的 截 距 ，b 是 斜率 。 


另 一 方面 ， 如 果 add 是 线性 的 ， 则 n 次 添加 的 总 时 间 将 是 平方 。 如 果 我 们 绘制 运行 时 间 与 问 
题 规模 ， 我 们 预计 会 看 到 抛物 线 。 或 者 在 数学 上 ， 像 : 


nuntaimes = a tt Dn cn 2 


有 了 完美 的 数据 ， 我 们 可 能 能 够 分 辩 直 线 和 抛物 线 之 间 的 区 别 ， 0 告 果 很 噶 杂 ， 可 
能 很 难 辨别 。 解 释 噶 杂 的 测量 值 的 更 好 方法 是 ， 在 重 对 数 刻 度 上 绘制 的 运行 时 间 和 问题 规 


A 上 
0° 


me 


及 运行 时 间 与 mn xx k 成 正比 ， 但 是 我 们 不 知道 指数 k 是 什么 。 我 们 可 以 将 
关系 写成 这 


Runtimes=Sar tr on rc ne ek 


对 于 n 的 较 大 值 , 最 大 指数 项 是 最 重要 的 ， 因 此 : 


runtime =c * n ** k 


其 中 = 意思 是 “大 致 相等 "。 现 在， 如果 我 们 对 这 个 方程 的 两 边 取 对 数 : 


log(runtime) = log(c) + k * log(n) 


这 个 方程 式 意味 着 ， 如 果 我 们 在 重 对 数 合 度 上 绘制 运行 时 间 与 n ， 我 们 预计 看 到 一 条 直线 ， 
截 距 为 l0g(c) ， 斜 率 为 k 。 我 们 不 太 在 意 截 距 ， 但 斜率 表示 增长 级 别 : pe 
是 线性 的 ; 如 果 k = 2 ， 则 为 平方 的 。 

看 上 一 节 中 的 数字 ， 你 可 以 通过 眼睛 来 估计 斜率 。 但 是 当 你 调用 plotResults 它 时 ， 会 计算 数 
据 的 最 小 二 乘 拟 合并 打印 估计 的 斜率 。 在 这 个 例子 中 : 


Estimated Slope = 1.06194352346708 


它 接近 1 ; 并 且 这 表明 n 次 添加 的 总 时 间 是 线性 的 ， 所 以 每 个 添加 是 常数 时 间 ， 像 预期 的 那 
样 。 

其 中 重要 的 一 点 : 如 果 你 在 图 形 看 到 这 样 的 直线 ， 这 并 不 意味 着 该 算法 是 线性 的 。 如 果 对 于 
任何 指数 k ， 运 行 时 间 与 n ** k 成 正比 ， 我 们 预计 看 到 斜率 为 k 的 直线 。 如 果 斜 率 接 

近 1 ， 则 表明 算法 是 线性 的 。 如 果 接 近 2 ， 它 可 能 是 平方 的 。 


4.5 练习 4 


在 本 书 的 仓库 中 ， 你 将 找到 此 练习 所 需 的 源 文 件 : 


@ Profiler.java 包含 上 述 profiler 类 的 实现 。 你 会 使 用 这 个 类 ， 但 你 不 必 知 道 它 如 何 工 
作 。 但 可 以 随时 阅读 源码 。 

epProfileListAdd,java 包含 此 练习 的 起 始 代码 ， 包 括 上 面 的 示例 ， 它 测量 
了 ArrayList.add 。 你 将 修改 此 文件 来 测量 其 他 一 些 方法 。 


此 外 ， 在 code 目录 中 ， 你 将 找到 Ant 构建 文件 build.xml 。 


运行 ant profileListAdd 来 运行 profileListAdd.java 。 你 应 该 得 到 类 似 图 4.1 的 结果 ， 但 是 
你 


可 能 需要 调整 startN 或 endMillis 。 估 计 的 斜率 应 该 接近 1 ， 表 明 执 行 n 个 添加 操作 的 
,起 
中 


所 需 时 间 与 n 成 正比 ; 也 就 是 说 ， 它 是 0(n) 的 。 


在 ProfileListAdd.java 中 ， 你 会 发 现 一 个 空 的 方法 profileArrayListAddBeginning 。 用 测 

试 ArrayList.add 的 代码 填充 这 个 方法 的 主体 ， 总 是 把 新 元 素 放 在 开头 。 如 果 你 

以 profileArrayListAddEnd 的 副本 开始 > 你 只 需要 进行 一 些 更 改 小 在 main 中 添加 一 行 来 调用 
这 个 方法 。 


再 次 运行 ant ProfileListAdd 并 解释 结果 。 基 于 我 们 对 ArrayList 工作 方式 的 理解 ， 我 们 期 
望 ， 每 个 添加 操作 是 线性 的 ， 所 以 n 次 添加 的 总 时 间 应 该 是 平方 的 。 如 果 是 这 样 ， 在 重 对 数 
刻度 中 ， 直 线 的 估计 斜率 应 该 接近 2 。 是 吗 ? 


现在 我 们 来 将 其 与 LinkedList 比较 。 当 我 们 把 新 元 素 放 在 开头 ， 填 
充 profileLinkedListAddBeginning 并 使 用 它 划 分 LinkedList.add 。 你 期 望 什 么 性 能 ? 结果 是 
否 符合 你 的 期 望 ? 


最 后 ， 卉 充 profileLinkedListAddEnd 的 主体 ， 使 用 它 来 划分 LinkedList ,add 。 你 期 望 什么 性 
能 ? 结果 是 否 符合 你 的 期 望 ? 


我 将 在 下 一 章 中 展示 结果 并 回答 这 些 问题 。 


秒 万 音 、 
第 五 草 双 链 衣 
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译 者 : 飞龙 
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本 章 回顾 了 上 一 个 练习 的 结果 ， 并 介绍 了 List 接口 的 另 一 个 实现 ， 即 双 链 表 。 


5.1 性 能 分 析 结 果 


在 之 前 的 练习 中 ， 我 们 使 用 了 profiler.java ， 运 行 ArrayList 和 LinkedList 的 各 种 操作 ， 
它们 具有 一 系列 的 问题 规模 。 我 们 将 运行 时 间 与 问题 规模 绘制 在 重 对 数 比 例 尺 上 ， 并 估计 所 
得 曲线 的 斜率 ， 它 表示 运行 时 间 和 问题 规模 之 间 的 关系 的 主要 指数 。 


例如 ， 当 我 们 使 用 add 方法 将 元 素 添加 到 ArrayList 的 末尾 ， 我 们 发 现 ， 执 行 n 次 添加 的 总 
时 间 正 比 于 mn。 也 就 是 说 ， 估 计 的 斜率 接近 1 。 我 们 得 出 结论 ， 执 行 n 次 添加 是 

0(n) 的 ， 所 以 平均 来 说 ， 单 个 添加 的 时 间 是 常数 时 间 ， 或 者 0(1) ， 基 于 算法 分 析 ， 这 是 我 
们 的 预期 。 


这 个 练习 要 求 你 十 充 profileArrayListAddBeginning 的 主体 ， 它 测试 了 ， 在 ArrayList 头 部 添 
加 一 个 新 的 元 素 的 性 能 。 根 据 我 们 的 分 析 ， 我 们 预计 每 个 添加 都 是 线性 的 ， 因 为 它 必 须 将 其 
他 元 素 向 右 移动 ; 所 以 我 们 预计 ，n 次 添加 是 平方 复杂 度 。 


这 是 一 个 解决 方案 ， 你 可 以 在 仓库 的 solution 目录 中 找到 它 。 


public static void profileArrayListAddBeginning() { 
Timeable timeable = new Timeable() { 
List<String> list; 


publrnicavor setuplamne nn 
list = new ArrayList<String>(); 
} 


publrievord ErmeMe( rn ne 
for (int i=0; i<n; i++) { 
st sadd(o avstramg yy 
} 


} 
}; 
int startN = 4000; 
int endMillis = 10000; 
runProfiler("ArrayList add beginning", timeable, startN, endMil]lis); 


这 个 方法 几乎 和 profileArrayListAddEnd 相同 。 唯 一 的 区 别 在 于 timeMe ， 它 使 用 add 的 双 参 
数 版 本 ， 将 新 元 素 置 于 下 标 9 处 。 同 样 ， 我 们 增加 了 endMillis ， 来 获取 一 个 额外 的 数据 
点 。 


以 下 是 时 间 结 果 【〈 左 侧 是 问题 规模 ， 右 侧 是 运行 时 间 ， 单 位 为 毫秒 ) 
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图 5.1 展示 了 运行 时 间 和 问题 规模 的 图 形 
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图 5.1 : 分 析 结 果 : 在 ArrayList 开头 添加 n 个 元 素 的 运行 时 间 和 问题 规模 
请 记 住 ， 该 图 上 的 直线 并 不 意味 着 该 算法 是 线性 的 。 相 反 ， 如 果 对 于 任何 指数 k ， 运 行 时 间 
与 n ** k 成 正比 ， 我 们 预计 会 看 到 斜率 为 k 的 直线 。 在 这 种 情况 下 ， 我 们 预计 ，n 次 添加 


的 总 时 间 与 n ** 2 成 正比 ， 所 以 我 们 预计 会 有 一 条 斜率 为 2 的 直线 。 实 际 上 ， 估 计 的 斜率 
是 1.992 ， 非 常 接近 。 丽 怕 假 数据 才能 做 得 这 么 好 。 


5.2 分 析 LinkedList 方法 的 性 能 


在 以 前 的 练习 中 ， 你 还 分 析 了 ， 在 LinkedList 头 部 添加 新 元 素 的 性 能 。 根 据 我 们 的 分 析 ， 我 
们 预计 每 个 add 都 要 花 时 间 ， 因 为 在 一 个 链表 中 ， 我 们 不 必 转 移 现 有 元 素 ; 我 们 可 以 在 头 部 
添加 一 个 新 节点 。 所 以 我 们 预计 n 次 添加 的 总 时 间 是 线性 的 。 


这 是 一 个 解决 方案 : 


public static void profileLinkedListAddBeginning() { 
Timeable timeable = new Timeable() { 
List<String> list; 


public voi setup(inemn ne 
list = new LinkedList<String>(); 
} 


public void timeMe(int n) { 
or (ME 0 mn tf 
list.add(0, "a string"); 
} 


} 
}; 
int startN = 128000; 
int endMillis = 2000; 
runPprofiler("LinkedList add beginning", timeable, startN, endMil]lis); 


我 们 只 做 了 一 些 修改 ， 将 ArrayList 替换 为 LinkedList 并 调整 startN 和 endMillis ， 来 
良好 的 数据 范围 。 测 量 结果 比 上 一 批 数据 更 加 噶 杂 ; 结果 如 下 : 


128000，16 
256000，19 
512000，28 
1024000，77 
2048000,，330 
4096000，892 
8192000，1047 
16384000，4755 


图 5.2 展示 了 这 些 结果 的 图 形 。 
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: 分 析 结 果 : 在 LinkedList 开头 添加 n 个 元 素 的 运行 时 间 和 问题 规模 


图 5.2 
并 不 是 一 条 很 直 的 线 ， 斜 率 也 不 是 正好 是 1 ， 最 小 二 乘 拟 合 的 斜率 是 1.23 。 但 是 结果 表 
未 ，n 次 添加 的 总 时 间 至 少 近 似 于 0(n) ， 所 以 每 次 添加 都 是 常数 时 间 。 


局 


5.3 LinkedList 的 尾部 添加 


在 开头 添加 元 素 是 一 种 操作 ， 我 们 期 望 LinkedList 的 速度 快 于 ArrayList 。 但 是 为 了 在 末尾 
添加 元 素 ， 我 们 预计 LinkedList 会 变 慢 。 在 我 的 实现 中 ， 我 们 必须 遍历 整个 列表 来 添加 一 个 
元 素 到 最 后 ， 它 是 线性 的 。 所 以 我 们 预计 n 次 添加 的 总 时 间 是 二 次 的 。 


但 是 不 是 这 样 。 以 下 是 代码 : 


public static void profileLinkedListAddEnd() { 
Timeable timeable = new Timeable() { 
List<String> list; 


public void setup(int n) { 
list = new LinkedList<String>(); 
} 


public void timeMe(int n) { 
for (int i=0; i<n; i++) { 
list.add("a string"); 
} 


}; 

int startN = 64000; 

int endMillis = 1000; 

runPprofiler("LinkedList add end", timeable, startN, endMillis); 


这 里 是 结果 : 


64000，9 
128000，9 
256000，21 
512009，24 
1024000，78 
2048000，235 
4096000，851 
8192000，950 
16384000，6160 


图 5.3 展示 了 这 些 结果 的 图 形 。 
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图 5.2 : 分 析 结 果 : 在 LinkedList 末尾 添加 n 个 元 素 的 运行 时 间 和 问题 规模 


同样 ， 测 量 值 很 噶 杂 ， 线 不 完全 是 直 的 ， 但 估计 的 斜率 为 1,19 ， 接 近 于 在 头 部 添加 元 素 ， 而 
并 不 非常 接近 2 ， 这 是 我 们 根据 分 析 的 预期 。 事 实 上 ， 它 接近 1 ， 这 表明 在 尾部 添加 元 素 是 
常数 元 素 。 a 


5.4 双 链 表 

我 的 链表 实现 MyLinkedList ， 使 用 单 链表 ; 也 就 是 说 ， 每 个 元 素 都 包含 下 一 个 元 素 的 链接 ， 
并 且 MyArrayList 对 象 本 身 具 有 第 一 个 节点 的 链接 。 

但 是 ， 如 果 你 阅读 LinkedList 的 文档 ， 网 址 为 http://thinkdast.com/linked， 它 说 : 


List 和 Deque 接口 的 双 链 表 实 现 。[...] 所 有 的 操作 都 能 像 双 向 列表 那样 执行 。 索 引 该 列 
表 中 的 操作 将 从 头 或 者 尾 遍历 列表 ， 使 用 更 接近 指定 索引 的 那个 。 


如 果 你 不 熟悉 双 链 表 ， 你 可 以 在 http:Wthinkdast.com/doublelist 上 阅读 更 多 相关 信息 ， 但 简称 
为 : 


。 每 个 节点 包含 下 一 个 节点 的 链接 和 上 一 个 节点 的 链接 。 
e LinkedList 对 象 包含 指向 列表 的 第 一 个 和 最 后 一 个 元 素 的 链接 。 


所 以 我 们 可 以 从 列表 的 任意 一 端 开始 ， 并 以 任意 方向 遍历 它 。 因 此 ， 我 们 可 以 在 常数 时 间 
内 ， 在 列表 的 头 部 和 末尾 添加 和 删除 元 素 |! 


下 表 总 结 了 ArrayList ? MyLinkedList ( 单 链表 ) 和 LinkedList ( 双 链 表 ) 的 预期 性 能 : 


MyArrayList MyLinkedList LinkedList 


add (尾部 ) 1 n a 
add ( 头 部 ) n 1 1 
add (一 般 ) n n n 
get / set 1 n n 
indexof / lastIndexof n n n 
isEmpty / size 1 1 1 
remove (尾部 ) 1 n 1 
remove ( 头 部 ) n ] 1 
remove (一 般 ) n n n 


5.5 结构 的 选择 


对 于 头 部 插入 和 删除 ， 双 链表 的 实现 优 于 ArrayList 。 对 于 尾部 插入 和 删除 ， 都 是 一 样 好 。 
所 以 ， ArrayList 唯一 优势 是 get 和 set ， 链 表 中 它 需要 线性 时 间 ， 即 使 是 双 链 表 。 


如 果 你 知道 ， 你 的 应 用 程序 的 运行 时 间 取 决 于 get 和 set 元 素 的 所 需 时 间 ， 则 ArrayList 可 
是 更 好 的 选择 。 如 果 运 行 时 间 取 决 于 在 开头 或 者 末尾 附加 添加 和 删除 元 素 ， LinkedList 可 


但 请 记 住 ， 这 些 建议 是 基于 大 型 问题 的 增长 级 别 。 还 有 其 他 因素 要 考虑 : 


。 如 果 这 些 操 作 不 占用 你 应 用 的 大 部 分 运行 时 间 - 也 就 是 说 ， 如 果 你 的 应 用 程序 花费 大 部 分 
时 间 来 执行 其 他 操作 - 那么 你 对 List 实现 的 选择 并 不 重要 。 

e 如 果 你 正在 处 理 的 列表 不 是 很 大 ， 你 可 能 无 法 获得 期 望 的 性 能 。 对 于 小 型 问题 ， 二 次 算 
法 可 能 比 线性 算法 更 快 ， 或 者 线性 可 能 比 常 数 时 间 更 快 。 而 对 于 小 型 问题 ， 差 异 可 能 上 
不 重要 。 

e 另外 ， 别 忘 了 空间 。 到 目前 为 止 ， 我 们 专注 于 运行 时 间 ， 但 不 同 的 实现 需要 不 同 的 空 
间 。 在 ArrayList 中 ， 这 些 元 素 并 排 存储 在 单个 内 存 块 中 ， 所 以 浪费 的 空间 很 少 ， 并 且 
计算 机 硬件 通常 在 连续 的 块 上 更 快 。 在 链表 中 ， 每 个 元 素 需 要 一 个 节点 ， 带 有 一 个 或 两 
个 链接 。 链 接 占 用 空间 (有 时 甚至 超过 数据 ! ) ， 并 且 节 点 分 散在 内 存 中 ， 硬 件 效率 可 


能 不 高 。 
总 而 言 之 ， 算 法 分 析 为 数据 结构 的 选择 提供 了 一 些 指南 ， 但 只 有 : 


。 你 的 应 用 的 运行 时 间 很 重要 ， 
。 你 的 应 用 的 运行 时 间 取 决 于 你 选择 的 数据 结构 ， 以 及 ， 
。 问题 的 规模 足够 大 ， 增 长 级 别 实际 上 预测 了 哪个 数据 结构 更 好 。 


作为 一 名 软件 工程 师 ， 在 较 长 的 职业 生涯 中 ， 你 几乎 不 必 考 虑 这 种 情况 。 
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本 章 将 介绍 一 个 Web 搜索 引擎 ， 我 们 将 在 本 书 其 余部 分 开发 它 。 我 描 pe 擎 的 元 素 ， 
并 介绍 了 第 一 个 应 用 程序 ， 一 个 从 维基 百科 下 载 和 解析 页 面 的 Web 扑 行 器 。 本 章 还 介绍 了 深 
度 优 先 搜索 的 递归 实现 ， 以 及 和 迭代 实现 ， 它 使 用 Java peque 实现 ' 让 的 栈 。 


6.1 搜索 引擎 


网 络 搜索 引擎 ， 像 谷歌 搜索 或 Bing， 接 受 一 组 “检索 项 *， 并 返回 一 个 网 页 列表 ， 它 们 和 这 些 
项 相关 (之 后 我 将 讨论 “相关 ”是 什么 意思 ) 。 你 可 以 在 http://thinkdast.com/searcheng 上 阅读 
更 多 内 容 ， 但 是 我 会 解释 你 需要 什么 。 


搜索 引擎 的 基本 组 成 部 分 是 


抓 取 : 我 们 需要 一 个 程序 ， 可 以 下 载 网 页 ， 解 析 它 ， 并 提取 文本 和 任何 其 他 页 面 的 链接 。 索 
引 : 我 们 需要 一 个 数据 结构 ， 可 以 查找 一 个 检索 项 ， 并 找到 包含 它 的 页 面 。 检 索 : 我 们 需要 
一 种 方法 ， 从 索引 中 收集 结果 ， 并 识别 与 检索 项 最 相关 的 页 面 


我 们 以 卜 虫 开始 。 卜 虫 的 目标 是 查找 和 下 载 一 组 网 页 。 对 于 像 Google 和 Bing 这 样 的 搜索 引 
擎 ， 目 标 是 查找 所 有 了 网页， 但 候 虫 通常 仅 限于 较 小 的 域 。 在 我 们 的 例子 中 ， 我 们 只 会 读 取 维 
基 百 科 的 页 面 


作为 第 一 步 ， 我 们 将 构建 一 个 读 取 维基 百科 页 面 的 候 虫 ， wom 并 跟着 链接 来 到 
另 一 个 页 面 ， 然 后 重复 。 我 们 将 使 用 这 个 疏 虫 来 测试 "到达 哲学 "的 猜想 ， 它 是 : 


点 击 维基 百科 文章 正文 中 的 第 一 个 小 写 的 链接 ， 然 后 对 后 续 文章 重复 这 个 过 程 ， 通 常 最 
终 会 到 达 “ 哲 学 ”的 文章 。 


这 个 猜想 在 http://thinkdast.com/getphil 中 阐述 ， 你 可 以 阅读 其 历史 。 


测试 这 个 猜想 需要 我 们 构建 想 虫 的 基本 部 分 ， 而 不 必 爬 取 整 个 网 络 ， 甚 至 是 所 有 维基 百科 。 
而 且 我 觉得 这 个 练习 很 有 趣 ! 


在 几 个 章节 之 内 ， 我 们 将 处 理 索引 器 ， 然 后 我 们 将 到 达 检 索 器 。 


6.2 解析 HTML 


你 下 载 网 页 时 ， 内 容 使 用 超 文 本 标记 语言 ( 即 HTML) 编写 。 例 如 ， 这 里 是 一 个 最 小 的 
HTML 文档 : 


<!IDOCTYPE html> 
<html> 
<head> 
<title>This is a title</title> 
</head> 
<body> 
<p>Hello world!</p> 
</body> 
</html> 


短语 This is a title 和 Hello world! 是 实际 出 现在 页 面 上 的 文字 ; 其 他 元 素 是 指示 文本 应 如 
何 显示 的 标签 。 


当 我 们 的 爬虫 下 载 页 面 时 ， 它 需要 解析 HTML， 以 便 提取 文本 并 找到 链接 。 为 此 ， 我 们 将 使 
用 jsoup ， 它 是 一 个 下 载 和 解析 HTML 的 开源 Java 库 。 


jd HTML 的 结果 是 文档 对 象 模型 (DOM) 树 ， 其 中 包含 文档 的 元 素 ， 包 括 文本 和 标签 。 树 
节点 组 成 的 链接 数据 结构 ; 节点 表示 文本 ， 标 签 和 其 他 文档 元 素 。 


之 间 的 关系 由 文档 的 结构 决定 。 在 上 面 的 例子 中 ， 第 一 个 节点 称 为 根 ， 是 <htm1> Dr ， 


节点 
它 包 含 指 向 所 包含 两 个 节点 的 链接 ， <head> 和 <body> ; 这 些 节 点 是 根 节 点 的 子 节 


<head> 节点 有 一 个 子 节 点 ， <title> ， <body> 节点 有 一 个 子 节 点 ， <p> (代表 "段落 ”) 。 
图 6.1 以 图 形 方 式 表 示 该 树 。 


<html> 
2 


<title> <p> 


Thisisatitle Hello world! 


图 6.1 简单 HTML 页 面 的 DOM 树 


每 个 节点 包含 其 子 节点 的 链接 ; 此 外 ， 每 个 节点 都 包含 其 父 节点 的 链接 ， 所 以 任何 节点 都 可 以 
向 上 或 向 下 浏览 树 。 实 际 页 面 的 DOM 树 通 常 比 这 个 例子 更 复杂 。 


大 多 数 网 络 浏览 器 提供 了 工具 ， 用 于 检查 你 正在 查看 的 页 面 的 DOM。 在 Chrome 中 ， 你 可 以 
右键 单 击 网 页 的 任何 部 分 ， 然 后 从 弹出 的 菜单 中 选择 Inspect (检查 ) 。 在 Firefox 中 ， 你 可 
以 右键 单 击 并 从 菜单 中 选择 Inspect Element (检查 元 素 ) 。Safari 提供 了 一 个 名 为 Web 
Inspector 的 工具 ， 你 可 以 阅读 http://thinkdast.com/safari。 对 于 Internet Explorer ， 你 可 以 阅 
读 http://thinkdast.com/explorer 上 的 说 明 。 
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图 6.2 : Chrome DOM 查看 器 的 截图 


图 6.2 展示 了 维基 百科 Java 页 面 (http://thinkdast.com/java) 的 DOM 截图 。 高 亮 的 元 素 是 
文章 正文 的 第 一 段 ? 它 包含 在 一 个 <div> 元 素 中 3? 带 有 id="mw-content-text" ° 我 们 将 使 用 
这 个 元 素 ID 来 标识 我 们 下 载 的 每 篇 文章 的 正文 。 


6.3 使 用 jsoup 
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jsoup 非常 易于 下 载 ， 和 解析 Web 页 面 ， 以 及 访问 DOM 树 。 这 里 是 一 个 例子 : 


String url = "http://en.wikipedia.org/wiki/Java (programming_ language)"; 


// download and parse the document 
Connection conn = Jsoup.connect(url); 
Document doc = conn.get(); 


// select the content text and pull out the paragraphs. 
Element content = doc.getElementById("mw-content-text"); 
Elements paragraphs = content.select("p"); 


Jsoup.connect 接受 string 形式 的 url ， 并 连接 Web 服务 器 。 get 方法 下 载 HTML， 解 


析 ， 并 返回 Document 对 象 ， 他 表示 DOM 。 


Document 提供 了 se 先 择 节点 的 方法 。 其 实 它 提 供 了 很 多 方法 ， 可 能 会 把 人 摘 圭 。 此 示 
例 演示 了 两 种 选 点 的 方式 : 


e getElementById 接受 string 并 在 树 中 搜索 匹配 id 字段 的 元 素 。 在 这 里 ， 它 选择 节 
点 <div id="mw-content-text" lang="en" dir="Jtr"” class="mw-content-ltr"> ， 它 出 现在 每 
个 维基 页 面 上 ， 来 确定 包含 文章 正文 的 <div> 元 素 ， i 
素 。 getElementById 的 返回 值 是 一 个 Element 对 象 ， 代 表 这 个 <div> ， 并 包含 <div> 中 
的 元 素 作为 后 继 节点 。 

e@ select 接受 String ， 遍历 树 ， 并 返回 人 ， 它 的 标签 与 string 匹配 。 。 在 这 个 例 


与 
子 中 ， 它 返回 所 有 content 中 的 段落 标签 。 返 回 值 是 一 个 Elements 对 象 。 


译 者 注 : select 方法 接受 CSS 选择 器 ， 不 仅仅 能 按照 标签 选择 。 请 见 
https://jsoup.org/apidocs/org/jsoup/select/Selector.html ° 
在 你 继续 之 前 ， 你 应 该 仔细 阅读 这 些 类 的 文档 ， 以 便 知 道 他 们 能 做 什么 。 最 重要 的 类 
是 Element ， Elements 和 Node ， 你 可 以 阅读 
http://thinkdast.com/jsoupelt » http://thinkdast.com/jsoupelts 和 
http://thinkdast.com/jsoupnode 。 
Node 表示 DOM 树 中 的 一 个 节点 ; 有 几 个 扩展 Node 的 子 类 ， 其 中 包括 
Element ， TextNode ， DataNode ， 和 comment 。 Elements 是 Element 对 象 


的 Collection “。 


ArradL'st 


二 





Elements 





| ee | | won | 


图 6.3 : 被 选 类 的 UML 图 ， 由 jsoup 提供 。 编 辑 : ttp://yuml.me/edit/4bc1c919 


图 6.3 是 一 个 UML 图 ， 展 示 了 这 些 类 之 间 的 关系 。 在 UML 类 图 中 ， 带 有 空心 箭头 的 线 表示 
一 个 类 继承 另 一 个 类 。 例 如 ， 该 图 表示 Elements 继承 ArrayList 。 我 们 将 在 第 11.6 节 中 再 次 
接触 UML 图 。 


6.4 志 历 DOM 


为 了 使 你 变 得 更 轻松 ， 我 提供 了 一 个 wikiNodeIterable 类 ， 可 以 让 你 遍历 DOM 树 中 的 节 
点 。 以 下 是 一 个 示例 ， 展 示 如 何 使 用 它 : 


Elements paragraphs = content.select("p"); 
Element firstPara = paragraphs.get(0); 


Iterable<Node> iter = new WikiNodeIterable(firstPara); 
for (Node node: iter) { 
if (node instanceof TextNode) { 
System.out.print(node); 
} 


这 个 例子 紧 接 着 上 一 个 例子 。 它 选择 paragraphs 中 的 第 一 个 段落 ， 然 后 创建 一 


个 wikiNodeIterable ， 它 实现 Iterable<Node> 。 WikiNodeIterable 执行 “深度 优先 搜索 '， 它 
按照 它们 将 出 现在 页 面 上 的 顺序 产生 节点 。 


在 这 个 例子 中 ， 仅 当 Node 是 TextNode 时 ， 我 们 打印 它 ， 并 忽略 其 他 类 型 的 Node ， 特 别 是 代 
表 标 签 的 Element 对 和 象 。 结 果 是 没有 任何 标记 的 HTML 段落 的 纯 文 本 。 输 出 为 : 


Java is a general-purpose computer programming language that is concurrent, class-base 
d, object-oriented, [13] and specifically designed . 


Java 是 一 种 通用 的 计算 机 编程 语言 ， 它 是 并 发 的 ， 基 于 类 的 ， 面 向 对 象 的 ，[13] 和 特地 


设计 的 ... 


6.5 深度 优先 搜索 


有 几 种 方式 可 以 合理 地 遍历 一 个 树 ， 每 个 都 有 不 同 的 应 用 。 我 们 从 “深度 优先 搜索 ”(DFS ) 开 
始 。DFS 从 树 的 根 节 点 开始 ， 并 选择 第 一 个 子 节点 。 如 果子 节点 有 子 节点 ， 则 再 次 选择 第 一 
个 子 节点 。 当 它 到 达 没 有 子 节点 的 节点 时 ， 它 回溯 ， 沿 树 向 上 移动 到 父 节 点 ， 在 那里 它 选择 

下 一 个 子 节点 ， 如 果 有 的 话 ; 否则 它 会 再 次 回溯 。 当 它 探 索 了 根 节 点 的 最 后 一 个 子 节点 ， 就 

完成 了 。 


有 两 种 常用 的 方式 来 实现 DFS， 递 归 和 和 迭代。 递归 实现 简单 优雅 : 


private static void recursiveDFS(Node node) { 
if (node instanceof TextNode) { 
System.out.print(node); 


} 

for (Node child: node.childNodes()) { 
recursiveDFS(child); 

} 


} 


这 个 方法 对 树 中 的 每 一 个 Node 调用 ， 从 根 节点 开始 。 如 果 Node 是 一 个 TextNode ， 它 打 印 其 
内 容 。 如 果 Node 有 任何 子 节点 ， 它 会 按 顺序 在 每 一 个 子 节点 上 调用 recursiveDFs 。 


在 这 个 例子 中 ， 我 们 在 遍历 子 节点 之 前 打印 每 个 TextNode 的 内 容 ， 所 以 这 是 一 个 "前 序 " 遍 历 
的 例子 。 你 可 以 在 http://thinkdast.com/treetrav 上 了 解 " 前 序 ”， “后 序 " 和 "中 序 ?" 遍 历 。 对 于 此 应 
用 程序 ， 遍 历 顺序 并 不 重要 。 


通过 进行 递归 调用 ， recursiveDFs 使 用 调用 栈 (http://thinkdast. se 来 跟踪 子 节 
点 并 以 正确 的 顺序 处 理 它们 。 作 为 蔡 代 ， 我 们 可 以 使 用 栈 数据 结构 自己 跟踪 节点 ; 如 果 我 们 
这 样 做 ， 我 们 可 以 避免 递归 并 迭代 遍历 树 。 


6.6 Java 中 的 栈 


在 我 解释 DFS 的 迭代 版 本 之 前 ， 我 将 解释 栈 数 据 结构 。 我 们 将 从 栈 的 一 般 概 念 开始 ， 我 将 使 
用 小 写 s 指 代 “ 栈 "。 然 后 我 们 将 讨论 两 个 Java interfaces ， 它 们 定义 了 栈 的 方 
法 : stack 和 Deque 。 


栈 是 与 列表 类 似 的 数据 结构 : 它 是 维护 元 素 顺 序 的 集合 。 栈 和 列表 之 间 的 主要 区 别 是 栈 提 供 
的 方法 较 少 。 在 通常 的 惯例 中 ， 它 提供 : 


push : 它 将 一 个 元 素 添加 到 栈 顶 。 pop : 它 从 栈 中 删除 并 返回 最 顶部 的 元 素 。 peek : 它 
返回 最 顶部 的 元 素 而 不 修改 栈 ° isEmpty ， : 表示 栈 是 否 为 空 。 因为 pop 总 是 返回 最 顶部 的 元 
素 ， 栈 也 称 为 LIFO， 代 表 “ 后 入 先 出 "。 栈 的 替代 品 是 “队列 ”， 它 返回 的 元 素 顺序 和 添加 顺序 相 
同 ; 即 “ 先 入 先 出 (FIFO) 。 


为 什么 栈 和 队列 是 有 用 的 ， 可 能 不 是 很 明显 : 它们 不 提供 任何 列表 没有 的 功能 ; 实际 上 它们 
提供 的 功能 更 少 。 那 么 为 什么 不 使 用 列表 的 一 切 ? 有 两 个 原因 : 


e 如 果 你 将 自己 限制 于 一 小 部 分 方法 - 也 就 是 小 型 API - 你 的 代码 将 更 加 易 读 ， 更 不 容易 出 
错 。 例 如 ， 如 果 使 用 列表 来 表示 栈 ， 则 可 能 会 以 错误 的 顺序 删除 元 素 。 使 用 栈 API， 这 种 
错误 在 字面 上 是 不 可 能 的 。 避 免 错误 的 最 佳 方法 是 使 它们 不 可 能 。 

e 如 果 一 个 数据 结构 提供 了 小 型 API， 那 么 它 更 容易 实现 。 例 如 ， 实 现 栈 的 简单 方法 是 单 链 
表 。 当 我 们 压 入 一 个 元 素 时 ， 我 们 将 它 添加 到 列表 的 开头 ; 当 我 们 弹出 一 个 元 素 时 ， 我 
们 在 开头 删除 它 。 对 于 链表 ， 在 开头 添加 和 删除 是 常数 时 间 的 操作 ， 因 此 这 个 实现 是 高 
效 的 。 相 反 ， 大 型 AP| 更 难 实现 高 效 。 


为 了 在 Java 中 实现 栈 ， 你 有 三 个 选项 : 


e。 继续 使 用 ArrayList 或 LinkedList 。 如 果 使 用 ArrayList ， 请 务必 从 最 后 添加 和 删除 ， 
这 是 一 个 常数 时 间 的 操作 。 并 且 小 心 不 要 在 错误 的 地 方 添加 元 素 ， 或 以 错误 的 顺序 删除 
它们 。 

。 Java 提供 了 一 个 stack 类 ， 它 提供 了 一 组 标准 的 栈 方法 。 但 是 这 个 类 是 Java 的 一 个 旧 
部 分 : 它 与 Java 集合 框架 不 兼容 ， 后 者 之 后 才 出 现 。 

。 最 好 的 选择 可 能 是 使 用 Deque 接口 的 一 个 实现 ， 如 ArrayDeque 。 


Deque 代表 “双向 队列 ”; 它 应 该 被 发 音 为 “deck”， 但 有 些 人 叫 它 “deek”"。 在 Java 中 ， 
Deque 接口 提供 push ， pop ? peek 和 isEmpty ， 因此 你 可 以 将 Deque 用 作 栈 。 它 提供 了 
其 他 方法 ， 你 可 以 阅读 http:Wthinkdast.com/deque， 但 现在 我 们 不 会 使 用 它们 。 


6.7 迭代 式 DFS 
这 里 是 DFS 的 迭代 版 本 ， 它 使 用 ArrayDeque 来 表示 Node 对 象 的 栈 。 


private static void iterativeDFS(Node root) { 
Deque<Node> stack = new ArrayDeque<Node>(); 
stack.push(root); 


while (!stack.isEmpty()) { 
Node node = stack.pop(); 
if (node instanceof TextNode) { 
System.out.print(node); 
} 


List<Node> nodes = new ArrayList<Node>(node.childNodes()); 
Collections.reverse(nodes); 


for (Node child: nodes) { 
stack.push(child); 
} 


参数 root 是 我 们 想 要 遍历 的 树 的 根 节 点 ， 所 以 我 们 首先 创建 栈 并 将 根 节点 压 入 它 。 


循环 持续 到 栈 为 空 。 每 次 迭代 ? 它 会 从 栈 中 弹出 Node ° 如 果 它 得 到 TextNode ， 它 打印 内 
容 。 然 后 它 把 子 节点 们 压 栈 。 为 了 以 正确 的 顺序 处 理子 节点 ， 我 们 必须 以 相反 的 顺序 将 它们 
压 栈 ; 我 们 通过 将 子 节 点 复制 成 一 个 ArrayList ， 原 地 反 转 元 素 ， 然 后 遍历 反 转 


的 Ar rayList ° 


DFS 的 迭代 版 本 的 一 个 优点 是 ， 更 容易 实现 为 Java Iterator ; 你 会 在 下 一 章 看 到 如 何 实 
现 。 


但 是 首先 ， 有 一 个 peque 接口 的 最 后 的 注意 事项 : 除了 ArrayDeque ，Java 提供 另 一 

个 Deque 的 实现 ， 我 们 的 老 朋 友 LinkedList 。 LinkedList 实现 两 个 接 

口 ，List 和 Deque (还 有 Queue ) 。 你 得 到 哪个 接口 ， 取 决 于 你 如 何 使 用 它 。 例 如 ， 如 果 
将 LinkedList 对 象 典 给 Deque 变量 ， 如 下 所 示 : 


Deqeue<Node> deque = new LinkedList<Node>(); 


你 可 以 使 用 peque 接口 中 的 方法 ， 但 不 是 所 有 List 中 的 方法 。 如 果 你 将 其 赋 给 List 变量 ， 
像 这 样 : 


List<Node> deque = new LinkedList<Node>(); 


你 可 以 使 用 List 接口 中 的 方法 ， 但 不 是 所 有 Deque 中 的 方法 。 并 且 如 果 像 这 样 赋值 : 


LinkedList<Node> deque = new LinkedList<Node>(); 


你 可 以 使 用 所 有 方法 ， 但 是 混合 了 来 自 不 同 接口 的 方法 。 你 的 代码 会 更 不 可 读 ， 并 且 更 易于 
出 错 。 


第 七 章 到 达 匠 学 


原文 : Chapter 7 Getting to Philosophy 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


本 章 的 目标 是 开发 一 个 Web 疏 幢 ， 它 测试 了 第 6.1 节 中 提 到 的 “到 达 哲 学 猜想。 


7.1 起 步 


在 本 书 的 仓库 中 ， 你 将 找到 一 些 帮 助 你 起 步 的 代码 : 


e WikiNodeExample.java 包含 前 一 章 的 代码 ， 展 示 了 DOM 树 中 深度 优先 搜索 (DFS) 的 递 
由 和 和 迭代 实现 。 

e WwWikiNodeIterable.java 包含 Iterable 类 ， 用 于 遍历 DOM 树 。 我 将 在 下 一 节 中 解释 这 段 
代码 。 

e@ WikiFetcher.java 包含 一 个 工具 类 ， 使 用 jsoup 从 维基 百科 下 载 页 面 。 为 了 帮助 你 遵守 
维基 百科 的 服务 条 款 ， 此 类 限制 了 你 下 载 页 面 的 速度 ; 如 果 你 每 秒 请 求 许 多 页 ， 在 下 载 
下 一 页 之 前 会 休眠 一 段 时 间 。 

e Wikiphilosophy.java 包含 你 为 此 练习 编写 的 代码 的 大 纲 。 我 们 将 在 下 面 进 行 说 明 。 


你 还 会 发 现 Ant 构建 文件 build.xml 。 如 果 你 运行 ant Wikiphilosophy ， 它 将 运行 一 些 简 单 
的 启动 代码 。 


7.2 可 和 迭代 对 象 和 和 迭 
在 前 一 章 中 ， 我 展示 了 迭代 式 深度 优先 搜索 (DFS) ， 并 且 认 为 与 递归 版 本 相 比 ， 和 迭代 版 本 
的 优点 在 于 ， 它 更 容易 包装 在 Iterator 对 象 中 。 在 本 节 中 ， 我 们 将 看 到 如 何 实现 它 。 


如 果 你 不 熟悉 Iterator 和 Iterable 接口 ， 你 可 以 阅读 http://thinkdast.com/iterator 和 
http://thinkdast.com/iterable 。 


看 看 WikiNodeIterable,java 的 内 容 。 外 层 的 类 wikiNodeIterable 实现 Iterable<Node> 接口 ， 
所 以 我 们 可 以 在 一 个 for 循环 中 使 用 它 


Node root = ... 
Iterable<Node> iter = new WikiNodeIterable(root); 
for (Node node: iter) { 
visit(node); 
} 


其 中 root 是 我 们 想 要 遍历 的 树 的 根 节 点 ， 并 且 visit 是 一 个 方法 ， 当 我 们 “访问 ”Node 时 ， 
做 任何 我 们 想 要 的 事情 。 


WikiNodeIterable 的 实现 遵循 以 下 惯例 : 


e 构造 函数 接受 并 存储 根 Node 的 引用 。 
e iterator 方法 创建 一 个 返回 一 个 Iterator 对 象 。 


这 是 它 的 样子 : 


public class WikiNodeIterable implements Iterable<Node> { 
private Node root; 
public WikiNodeIterable(Node root) { 


this.root = root; 
} 


Q@Override 

public Iterator<Node> iterator() { 
return new WikiNodeIterator(root); 

} 


内 层 的 类 wikiNodeIterator ， 执 行 所 有 实际 工作 。 


private class WikiNodeIterator implements Iterator<Node> { 
Deque<Node> stack 
public WikiNodeIterator(Node node) { 


stack = new ArrayDeque<Node>(); 
stack.push(root); 


} 
Q@Override 


public boolean hasNext() { 
return !stack.isEmpty(); 
} 


@Override 
public Node next() { 
If (stack.isEmpty()) { 
throw new NoSuchElementException(); 
} 


Node node = stack.pop(); 
List<Node> nodes = new ArrayList<Node>(node.childNodes()); 
Collections.reverse(nodes); 
for (Node child: nodes) { 
stack.push(child); 


return node; 


该 代码 与 DFS 的 迭代 版 本 几乎 相同 ， 但 现在 分 为 三 个 方法 : 


e 构造 函数 初始 化 栈 (使 用 一 个 ArrayDeque 实现 ) 并 将 根 节 点 压 入 这 个 栈 。 

@ isEmpty 检查 栈 是 否 为 空 。 

e next 从 Node 栈 中 弹出 下 一 个 节点 ， 按 相反 的 顺序 压 入 子 节点 ， 并 返回 弹出 的 Node 。 
如 果 有 人 在 空 Tterator 上 调用 next ， 则 会 抛 出 异常 。 


可 能 不 明显 的 是 ， 值 得 使 用 两 个 类 和 五 个 方法 ， 来 重 写 一 个 完美 的 方法 。 但 是 现在 我 们 已 经 
完成 了 ， 在 需要 Iterable 的 任何 地 方 ， 我 们 可 以 使 用 wikiNodeIterable ， 这 使 得 它 的 语法 整 
洁 ， 易 于 将 迭代 逻辑 (DFS) 与 我 们 对 节点 的 处 理 分 开 。 


7.3 WikiFetcher 

编写 Web 让 虫 时 ， 很 容易 下 载 太 多 页 面 ， 这 可 能 会 违反 你 要 下 载 的 服务 器 的 服务 条 款 。 为 了 

帮助 你 避免 这 种 情况 ， 我 提供 了 一 个 WikiFetcher 类 ， 它 可 以 做 两 件 事情 : 

。 它 封装 了 我 们 在 上 一 章 中 介绍 的 代码 ， 用 于 从 维基 百科 下 载 页 面 ， 解 析 HTML 以 及 选择 
内 容 文本 。 

。 它 测量 请 求 之 间 的 时 间 ， 如 果 我 们 在 请 求 之 间 没 有 足够 的 时 间 ， 它 将 休眠 直到 经 过 了 合 
理 的 间隔 。 默 认 情 况 下 ， 间隔 为 1 秒 。 


这 里 是 WikiFetcher 的 定义 : 


public class WikiFetcher { 
private long lastRequestTime = -1; 
private long minInterval = 1000; 


pe 
* Fetches and parses a URL string, 
* returning a list of paragraph elements. 
. 
* @param Url 
* @return 
* @throws IOException 


SS 


public Elements fetchwikipedia(String url) throws IOException { 
sleepIfNeeded(); 


Connection conn = Jsoup.connect(url); 

Document doc = conn.get(); 

Element content = doc.getElementById("mw-content-text"); 
Elements paragraphs = content.select("p"); 

return paragraphs; 


} 


private void sleepIfNeeded() { 
if (lastRequestTime != -1) { 
long currentTime = System.currentTimeMillis(); 
long nextRequestTime = lastRequestTime + minInterval; 
if (currentTime < nextRequestTime) { 


vy 
Thread.sleep(nextRequestTime - currentTime); 


} catch (InterruptedException e) { 
System.err.println( 
"Warning sleep interrupted in fetchwikipedias ) 


} 
} 


lastRequestTime = System.currentTimeMillis(); 


唯一 的 公共 方法 是 fetchwikipedia ， 接 收 string 形式 的 URL， 并 返回 一 个 Elements 集合 ， 
该 集合 包含 的 一 个 DOM 元 素 表示 内 容 文本 中 每 个 段落 。 这 段 代码 应 该 很 熟悉 了 。 


新 的 代码 是 sleepIfNeeded ， 它 检查 自 上 次 请 求 以 来 的 时 间 ， 如 果 经 过 的 时 间 人 小 


于 minInterval (毫秒 ) ， 则 休眠 。 


这 就 是 wikiFetcher 全 部 。 这 是 一 个 演示 如 何 使 用 它 的 例子 : 


WikiFetcher wf = new WikirFetcher(); 
for (String url: urlList) { 


Elements paragraphs = wf .fetchwikipedia(url); 
processParagraphs(paragraphs); 


在 这 个 例子 中 ， 我 们 假设 urlList 是 一 个 string 的 集合 ， 并 且 processParagraphs 是 一 个 方 


法 ， 对 Elements 做 一 些 事情 ， 它 由 fetchwikipedia 返回 。 


此 示例 展示 了 一 些 重要 的 东西 : 你 应 该 创建 一 个 wikiFetcher 对 象 并 使 用 它 来 处 理 所 有 请 求 。 
如 果 有 多 个 wikiFetcher 的 实例 ， 则 它们 不 会 确保 请 求 之 间 的 最 小 间隔 。 


注意 : 我 的 wikiFetcher 实现 很 简单 ， 但 是 通过 创建 多 个 实例 ， 人 们 很 容易 误 用 它 。 你 可 以 通 
过 制作 wikiFetcher“ 单 例 ” 来 避免 这 个 问题 ， 你 可 以 阅读 http:/thinkdast.com/singleton 。 


7.4 练习 5 


在 wikiPhilosophy.java 中 ， 你 会 发 现 一 个 简单 的 main 方法 ， 展 示 了 如 何 使 用 这 些 部 分 。 从 
这 个 代码 开始 ， 你 的 工作 是 写 一 个 疏 虫 : 


1， 获取 维基 百科 页 面 的 URL， 下 载 并 分 析 。 

ee th 导 到 的 DOM 树 来 找到 第 一 个 有 效 的 链接 。 我 会 在 下 面 解释 “ 有效” 的 含义 。 

3， 如 果 页 面 没 有 链接 ， 或 者 如 果 第 一 个 链接 是 我 们 已 经 看 到 的 页 面 ， 程 序 应 该 指示 失败 并 
ii 。 

4， 如 果 链 接 匹配 维基 百科 页 面 上 的 哲学 网 址 ， 程 序 应 该 提示 成 功 并 退出 。 

5， 否 则 应 该 回 到 步骤 1 。 


该 程序 应 该 为 它 访 问 的 URL 构建 List ， 并 在 结束 时 显示 结果 (无 论 成 功 还 是 失败 ) 。 


那么 我 们 应 该 认为 什么 是 有效 的 "链接 ?你 在 这 里 有 一 些 选择 各 种 版 本 的 “到 达 白 学 "推测 使 用 
略 有 不 同 的 规则 ， 但 这 里 有 一 些 选择 


这 个 链接 应 该 在 页 面 的 内 容 文本 中 ， 而 不 是 侧 栏 或 弹出 框 。 
它 不 应 该 是 斜体 或 括号 。 

e。 你 应 该 跳 过 外 部 链接 ， 当 前 页 面 的 链接 和 红色 链接 。 

e。 在 某 些 版 本 中 ， 如 果 文 本 以 大 写字 母 开 头 ， 则 应 跳 过 链接 。 


你 不 必 遵 循 所 有 这 ， 但 我 们 建议 你 至 少 处 理 括号 ， 斜 体 以 及 当前 页 面 的 链接 。 
如 果 你 有 足够 的 信息 来 起 步 ， 请 继续 。 或 者 你 可 能 想 要 阅读 这 些 提示 : 


e 当 你 遍历 树 的 时 候 ， 你 将 需要 处 理 的 两 种 Node 是 TextNode 和 Element 。 如 果 你 找到 一 
个 Element ， 你 可 能 需要 转换 它 的 类 型 ， 来 访问 标签 和 其 他 信息 。 

e 当 你 找到 包含 链接 的 Element 时 ， 通 过 向 上 跟踪 父 节点 链 ， 可 以 检查 是 否 是 斜体 。 如 果 
父 节 点 链 中 有 一 个 <i> 或 <em> 标签 ， 链 接 为 斜体 。 

e 为 了 检查 链接 是 否 在 括号 中 ， 你 必须 在 遍历 树 时 扫描 文本 ， 并 跟踪 开启 和 闭合 括号 ( 理 
想 情况 下 ， 你 的 解决 方案 应 该 能 够 处 理 放 套 括号 ( 像 这 样 ) ) 。 


如 果 你 从 Java 页 面 开 始 ， 你 应 该 在 跟随 七 个 链接 之 后 到 达 哲 学 ， 除 非 我 运行 代码 后 发 生 了 改 
变 。 


好 的 ， 这 就 是 你 所 得 到 的 所 有 帮助 。 现 在 全 靠 你 了 。 玩 的 开心 ! 


己 己 


第 八 草 索引 器 
原文 : Chapter 8 Indexer 
译 者 : 飞龙 
协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 
目前 ， 我 们 构建 了 一 个 基本 的 Web 卜 虫 ; 我 们 下 一 步 将 是 索引 。 页 搜索 的 上 下 文中 ， 索 


引 是 一 种 数据 结构 ， 可 以 查找 检索 词 并 找到 该 词 出 现 的 页 面 。 ww EN 页 面 上 
显示 检索 词 的 次 数 ， 这 将 有 助 于 确定 与 该 词 最 相关 的 页 面 


例如 ， 如 果 用 户 提 交 检 索 词 “Java” 和 “编程 ”， 我 们 将 查找 两 个 检索 词 并 获得 两 组 页 面 。 带 
有 “Java” 的 页 OV A 
包括 不 同 编程 语言 的 页 Ra 通过 选择 具有 两 个 检索 词 的 页 面 ， 我 们 
希望 消除 不 相关 的 页 面 ， 并 找到 Java 编程 的 页 


现在 我 们 了 解 索引 是 什么 ， 它 执行 什么 操作 ， 我 们 可 以 设计 一 个 数据 结构 来 表示 它 。 


8.1 数据 结构 选取 


索引 的 基本 操作 是 查找 ; 具体 来 说 ， 我 们 需要 能 够 查找 检索 词 并 找到 包含 它 的 所 有 页 面 。 最 
A 是 页 面 的 集合 。 给 定 一 个 检索 词 ， 人 面 的 内 容 ， 并 选择 包含 检索 
词 的 内 容 。 但 运行 时 间 与 所 有 页 面 上 的 总 字数 成 正比 ， 这 太 慢 了 。 


一 个 更 好 的 选择 是 一 个 映射 (字典 ) ， 它 是 一 个 数据 结构 ， 表 示 键 值 对 的 集合 ， 并 提供 了 一 
种 方法 ， 快 速 查找 键 以 及 相应 值 。 例 如 ， 我 们 将 要 构建 的 第 一 个 映射 是 Termcounter ， 它 将 每 
个 检索 词 映射 为 页 面 中 出 现 的 次 数 。 。 键 是 检索 词 ， 值 是 计数 (也 称 为 “频率 ”) 


Java 提供 了 Map 的 调用 接口 ， 它 指定 映射 应 该 提供 的 方法 ; 最 重要 的 是 : 


e get(key) : 此 方法 查找 一 个 键 并 返回 相应 的 值 。 
e put(key，value) : 该 方法 向 Map 添加 一 个 新 的 键 值 对 ， 或 者 如 果 该 键 已 经 在 映射 中 ， 它 
将 替换 与 key 关联 的 值 


Java 提供 了 几 个 Map 实现 ， 包 括 我 们 将 关注 的 两 个 ， HashMap 以 及 TreeMap 。 在 即将 到 来 的 
章节 中 ， 我 们 将 介绍 这 些 实现 并 分 析 其 性 能 。 

除了 检索 词 到 计数 的 映射 Termcounter 之 外 ， 我 们 将 定义 一 个 被 称 为 Index 的 类 ， 它 将 检索 
词 映 射 为 出 现 的 页 面 的 集合 。 而 这 又 引发 了 下 一 个 问题 ， 即 如 何 表 示 页 面 集合 。 同 样 ， 如 果 
我 们 考虑 我 们 想 要 执行 的 操作 ， 它 们 就 指导 了 我 们 的 决定 。 


在 这 种 情况 下 ， 我 们 需要 组 合 两 个 或 多 个 集合 ， 并 找到 所 有 这 些 集合 中 显示 的 页 面 。 你 可 以 
将 此 操作 看 做 集合 的 交集 : 两 个 集合 的 交集 是 出 现在 两 者 中 的 一 组 元 素 。 

你 可 能 猜 到 了 ，Java 提供 了 一 个 set 接口 ， 来 定义 集合 应 该 执行 的 操作 。 它 实际 上 并 不 提供 
设置 交集 ， 但 它 提供 了 方法 ， 使 我 们 能 够 有 效 地 实现 交集 和 其 他 结合 操作 。 核 心 的 set 方法 


> 


下 ， 


®e add(element) : 该 方法 将 一 个 元 素 添 加 到 集合 中 ; 如 果 元 素 已 经 在 集合 中 ， 则 它 不 起 作 
用 。 
e contains(element) : 该 方法 检查 给 定 元 素 是 否 在 集合 中 。 


Java 提供 了 几 个 set 实现 ， 包 括 Hashset 和 Treeset 。 


现在 我 们 自 顶 向 下 设计 了 我 们 的 数据 结构 ， 我 们 将 从 内 到 外 实现 它们 ， 从 Termcounter 开始 。 


8.2 TermCounter 
TermCounter 是 一 个 类 ， 表 示 检 索 词 到 页 面 中 出 现 次 数 的 映射 。 类 定义 的 第 一 部 分 : 


public class TermCounter { 


private Map<String, Integer> map; 
private String label; 


publac TermCounter(String label) { 


this.label = label; 
this.map = new HashMap<String, Integer>(); 


实例 变量 map 包含 检索 词 到 计数 的 映射 ， 并 且 label 标识 检索 词 的 来 源 文档 ; 我 们 将 使 用 它 
来 存储 URL 。 


为 了 实现 映射 ， 我 选择 了 ， 它 是 是 最 常用 的 Map ° 在 几 章 中 2 你 将 看 到 它 是 如 何 工作 
的 ， 以 及 为 什么 它 是 一 个 常见 的 选择 。 


Termcounter 提供 put 和 get ， 定 义 如 下 : 


public void put(String term int count) { 
map.put(term, count); 


public Integer get(String term) { 
Integer count = map.get(term); 
return count == null ? 0 : count; 


put 只 是 一 个 包装 方法 ; 当 你 调用 Termcounter 的 put 时 ， 它 会 调用 内 府 映 射 的 put 。 


另 一 方面 ， get 做 了 一 些 实际 工作 。 当 你 调用 Termcounter 的 get 时 ， 它 会 在 映射 上 调 

用 get ， 然 后 检查 结果 。 如 果 该 检索 词 没 有 出 现在 映射 中 ， 则 Termcount .get 返 

回 0 。 get 的 这 种 定义 方式 使 incrementTermcount 的 写 入 更 容易 ， 它 需要 一 个 检索 词 ， 并 增 
加 关联 该 检索 词 的 计数 器 。 


public void incrementTermCount(String term) { 
put(term, get(term) + 1); 


如 果 这 个 检索 词 未 见 过 ， 则 get 返回 6 ; 我 们 设 为 1 ， 然 后 使 用 put 向 映射 添加 一 个 新 的 
键 值 对 。 如 果 该 检索 词 已 经 在 映射 中 ， 我 们 得 到 目的 计数 ， 增 加 1 ， 然 后 存储 新 的 计数 ， 替 
换 昌 的 值 。 


此 外 ， Termcounter 还 提供 了 这 些 其 他 方法 ， 来 帮助 索引 网 页 : 


public void processElements(Elements paragraphs) { 
for (Node node: paragraphs) { 
processTree(node); 
} 


} 


public void processTree(Node root) { 
for (Node node: new WikiNodeIterable(root)) { 
if (node instanceof TextNode) { 
processText(((TextNode) node).text()); 


} 
} 
} 
public void processText(String text) { 
String[] array = text.replaceAll("\\pP", " "). 
toLowerCase( ). 
SpaEGNNsT )» 
for (int i=0; i<array.length; i++) { 
String term = array[i]; 
incrementTermCount(term); 
} 
} 


最 后 ， 这 里 是 一 个 例子 ， 展示 了 如 何 使 用 TermCounter 


String url = "http://en.wikipedia.org/wiki/Java (programming_ language)"; 
WikiFetcher wf = new WikiFetcher(); 
Elements paragraphs = wf .fetchwikipedia(url); 


TermCounter counter = new TermCounter (ur1); 


counter .processElements(paragraphs); 
counter .printCounts(); 


这 个 示例 使 用 了 wikiFetcher 从 维基 百科 下 载 页 面 ， 并 解析 正文 。 之 后 它 创 建 
了 Termcounter 并 使 用 它 来 计数 页 面 上 的 单词 。 


节 中 ， 你 会 拥有 一 个 挑战 ， 来 运行 这 个 代码 ， 并 通过 卉 充 缺 失 的 方法 来 测试 你 的 理解 。 


8.3 练习 6 


在 本 书 的 存储 库 中 ， 你 将 找到 此 练习 的 源 文件 : 


e Termcounter .java 包含 上 一 节 中 的 代码 。 

® TermCcounterTest.java 书 包含 测试 代码 TermCounter.java ° 

e。 Index,java 包含 本 练习 下 一 部 分 的 类 定义 。 

e WikiFetcher.java 包含 我 们 在 上 一 个 练习 中 使 用 的 ， 用 于 下 载 和 解析 网 页 的 类 。 
e WikiNodeIterable.java 包含 我 们 用 于 遍历 DOM 树 中 的 节点 的 类 。 


你 还 会 发 现 Ant 构建 文件 build.xml 。 


运行 ant build 来 编译 源 文件 。 然 后 运行 ant Termcounter ; 它 应 该 运行 上 一 节 中 的 代码 ， 并 
打印 一 个 检索 词 列 表 及 其 计数 。 输 出 应 该 是 这 样 的 : 


genericservlet, 2 
configurations, 1 
claimed, 1 
servletresponse, 2 
occur, 2 

Total of all counts = -1 


运行 它 时 ， 检 索 词 的 顺序 可 能 不 同 。 


最 后 一 行 应 该 打印 检索 词 计数 的 总 和 ， 但 是 由 于 方法 size 不 完整 而 返回 -1 。 填 充 此 方法 
并 ant Termcounter 重新 运行 。 结 果 应 该 是 4798 。 


运行 ant TermcounterTest 来 确认 这 部 分 练习 是 否 完整 和 正确 。 


六 


对 于 练习 的 第 二 部 分 ， 我 将 介绍 Index 对 象 的 实现 ， 你 将 填充 一 个 缺失 的 方法 。 这 是 
的 开始 : 


定义 


public class Index { 


private Map<String, Set<TermCounter>> index = 
new HashMap<String, Set<TermCounter>>(); 


public void add(String term, TermCounter te) { 
Set<TermCounter> set = get(term); 


// if we're seeing a term for the first time, make a new Set 
if (set == null) { 
set = new HashSet<TermCounter>(); 
index.put(term, set); 
} 
// otherwise we can modify an existing Set 
set.add(tc); 
} 


public Set<TermCounter> get(String term) { 
return index.get(term); 
} 


实例 变量 index 是 每 个 检索 词 到 一 组 Termcounter 对 象 的 映射 。 每 个 Termcounter 表示 检索 词 
出 现 的 页 面 。 


add 方法 向 集合 添加 新 的 Termcounter ， 它 与 检索 词 关 联 。 当 我 们 索引 一 个 尚未 出 现 的 检索 
词 时 ， 我 们 必须 创建 一 个 新 的 集合 。 否 则 我 们 可 以 添加 一 个 新 的 元 素 到 一 个 现 有 的 集合 。 在 
这 种 情况 下 ， set.add 修改 位 于 index 里 面 的 集合 ， 但 不 会 修改 index 本 身 。 我 们 唯一 修 
改 index 的 时 候 是 添加 一 个 新 的 检索 词 。 


最 后 ， get 方法 接受 检索 词 并 返回 相应 的 Termcounter 对 象 集 。 


这 种 数据 结构 比较 复杂 。 回 顾 一 下 ， Index 包含 Map ， 将 每 个 检索 词 映射 到 Termcounter 对 
象 的 Setq? 每 个 TermCounter 包含 一 人 1 Map ， 将 检索 词 映射 到 计数 8 


Index Map Set 


index | “Java” 一 -一 上 > 


TermCounter TermCounter 


label = “URL1" label 一 “URL2” 


map map 

Map Map 

“Java” 一 5 "Java ”一 5 
“program ”一 2 “Indonesia” — 2 


图 8.1 Index 的 对 象 图 


图 8.1 是 展示 这 些 对 象 的 对 象 图 。 Index 对 象 具有 一 个 名 为 index 的 Map 实例 变量 。 在 这 个 
例子 中 ” Map 只 包含 一 | 字符 串 ” "Java" ， 它 映 射 到 一 个 Set 3 包含 两 个 TermCounter 对 象 
的 ， 代 表 每 个 出 现 单词 “Java” 的 页 面 。 


每 个 Termcounter 包含 label ， 它 是 页 面 的 URL， 以 及 map ， 它 是 Map ， 包 含 页 面 上 的 单词 
和 每 个 单词 出 现 的 次 数 。 


printIndex 方法 展示 了 如 何 解 压缩 此 数据 结构 : 


publue voand Druntrndex( ee 
// loop through the search terms 
for (String term: keySet()) { 
System.out.println(term); 


// for each term, print pages where it appears and frequencies 
Set<TermCounter> tcs = get(term); 
for (TermCounter tc: tcs) { 

Integer count = tc.get(term); 

System.out.println(" "+ tc.getLabel() + " " + count); 


外 层 循 环 遍 历 检 索 词 。 内 层 循环 迭代 Termcounter 对 象 。 


运行 ant build 来 确保 你 的 源 代 码 已 编译 ， 然 后 运行 ant Index 。 它 下 载 两 个 维基 百科 页 面 ， 
对 它们 进行 索引 ， 并 打印 结果 ; 二 二 人口 它 时 ， 你 将 看 不 到 任何 输出 ， 因 为 我 们 已 经 将 
其 中 一 个 方法 留 空 。 


你 的 工作 是 填写 indexPage ， 它 需要 一 个 URL (一 个 String ) 和 一 个 Elements 对 象 ， 并 更 
新 索引 。 下 面 的 注释 描述 了 应 该 做 什么 


public void EP EE url, Elements paragraphs) { 
// 生成 一 个 TermCounter 并 统计 段落 中 的 检索 词 


// 对 于 TermCounter 中 的 每 个 检索 词 ， 将 TermCounter 添加 到 索引 


它 能 工作 之 后 ， 再 次 运行 ant Index ， 你 应 该 看 到 如 下 输出 : 


configurations 
http://en.wikipedia.org/wiki/Programming_language 1 
http://en.wikipedia.org/wiki/Java_(programming_language) 1 
claimed 
http://en.wikipedia.org/wiki/Java_(programming_language) 1 
servletresponse 
http://en.wikipedia.org/wiki/Java_(programming_language) 2 
occur 
http://en.wikipedia.org/wiki/Java_(programming_language) 2 


当 你 运行 的 时 候 ， 检 索 词 的 顺序 可 能 有 所 不 同 。 


同样， 运行 ant TestIndex 来 确定 完成 了 这 部 分 练习 。 
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在 接 下 来 的 几 个 练习 中 ， 我 介绍 了 Map 接口 的 几 个 实现 。 其 中 一 个 基于 哈 硕 表 ， 这 可 以 说 是 
所 发 明 的 最 神奇 的 数据 纪 吉 构 。 另 一 个 是 是 类 似 的 TreeMap ， 不 是 很 神奇 ， 但 它 它 有 附加 功能 能 ， 它 
可 以 按 顺 序 和 迭代 元 素 。 

你 将 有 机 会 实现 这 些 数据 结构 ， 然 后 我 们 将 分 析 其 性 能 。 


但 是 在 我 们 可 以 解释 哈 希 表 之 前 ， 我 们 将 从 一 个 Map 开始 ， 它 使 用 键 值 对 的 List 来 简单 实 
现 。 


9.1 实现 MyLinearMap 
像 往常 一 样 ， 我 提供 启动 代码 ， 你 将 填写 缺少 的 方法 。 这 是 MyLinearMap 类 定义 的 起 始 : 


public class MyLinearMap<K，V> implements Map<K，V> { 


private List<Entry> entries = new ArrayList<Entry>(); 


该 类 使 用 两 个 类 型 参数 ，K 是 键 的 类 型 ，v 是 值 的 类 型 。 MyLinearMap 实现 Map ， 这 意味 着 
它 必须 提供 Map 接口 中 的 方法 。 


号 


MyLinearMap 对 象 具 有 单个 实例 变量 ， entries ， 这 是 一 个 Entry 的 ArrayList 对 象 。 每 
个 Entry 都 包含 一 个 键 值 对 。 这 里 是 定义 : 


public class Entry implements Map ,Entry<K，V> { 
private K key; 
private V value; 
public Entry(K key Vv value) { 
this.key = key; 
this.value = value; 
} 
@Override 
public Kk oetKeyO 
return key; 


Q@Override 

public V getValue() { 
return value; 

} 


Entry 没有 什么 ， 只 是 一 个 键 和 一 个 值 的 容器 。 该 定义 内 散在 MyLinearList 中 ， 因 此 它 使 用 
相同 类 型 的 参数 ，K 和 V。 


这 就 是 你 做 这 个 练习 所 需 的 所 有 东西 ， 所 以 让 我 们 开始 吧 。 


9.2 练习 7 


在 本 书 的 仓库 中 ， 你 将 找到 此 练习 的 源 文件 : 
e MyLinearMap .java 包含 练习 的 第 一 部 分 的 起 始 代码 。 
© MyLinearMapTest .java 包含 MyLinearMap 的 单元 测 试 。 


你 还 会 找到 Ant 构建 文件 build.xml 。 


运行 ant build 来 编译 源 文件 。 然 后 运行 ant MyLinearMapTest ; 几 个 测试 应 该 失败 ， 因 为 你 
有 一 些 任务 要 做 。 


首先 ， 卉 写 findEntry 的 主体 。 这 是 一 个 辅助 方法 ， 不 是 Map 接口 的 一 部 分 ， 但 是 一 旦 你 让 
它 工 作 ， 你 可 以 在 几 种 方法 中 使 用 它 。 给 定 一 个 目标 键 (Key) ， 它 应 该 搜索 条 目 (Entry) 
并 返回 包含 目标 的 条 目 (按照 键 ， 而 不 是 值 ) ， 或 者 如 果 不 存在 则 返回 null 。 请 注意 ， 我 提 
供 了 equals ， 正 确 比 较 两 个 键 并 处 理 null 。 


你 可 以 再 次 运行 ant MyLinearMapTest ， 但 即使 你 的 findEntry 是 正确 的 ， 测 试 也 不 会 通过 ， 
因为 put 不 完整 。 


填充 put 。 你 应 该 阅读 Map.put 的 文档 ，http://thinkdast.com/listput ， 以 便 你 知道 应 该 做 什 
么 。 你 可 能 希望 从 一 个 版 本 开始 ， 其 中 put 始终 添加 新 条 目 ， 并 且 不 会 修改 现 有 条 目 ; 这 样 
你 可 以 先 测试 简单 的 情况 。 或 者 如 果 你 更 加 自信 ， 你 可 以 一 次 写 出 整个 东西 。 


一 旦 你 put 正常 工作 ， 测 试 containskey 应 该 通过 。 


阅读 Map.get 的 文档 ，http://thinkdast.com/listget ， 然 后 填充 方法 。 再 次 运行 测试 。 


最 后 ， 阅 读 Map.remove 的 文档 ，http://thinkdast.com/maprem 并 卉 充 方法 。 


Tht 


到 了 这 里 ， 所 有 的 测试 都 应 该 通过 。 茶 


9.3 分 析 MyLinearMap 


这 一 节 中 ， 我 展示 了 上 一 个 练习 的 答案 ， 并 分 析 核心 方法 的 性 能 。 这 里 
是 findEntry 和 equals ° 
private®Entry findentry(0bIect target) et 
for (Entry entry: entries) { 


If (equals(target, entry.getkey())) { 
TeEunnEenmecy': 


returm mu 


} 


private boolean equals(Object target, Object obj) { 
If (target == null) { 
return obj == null; 
} 


return target.equals(obj); 


equals 的 运行 时 间 可 能 取决 于 target 键 和 键 的 大 小 ， 但 通常 不 取决 于 条 目的 数量 ，n 。 那 
么 equals 是 常数 时 间 。 

在 findEntry 中 ， 我 们 可 能 会 很 幸运 ， 并 在 一 开始 就 找到 我 们 要 找 的 键 ， 但 是 我 们 不 能 指望 
它 。 一 般 来 说 ， 我 们 要 搜索 的 条 目 数量 与 n 成 正比 ， 所 以 findEntry 是 线性 的 。 

大 部 分 的 MyLinearMap 核心 方法 使 用 findEntry ， 包 括 put ， get ， 和 remove 。 这 就 是 他 们 
的 样子 : 


public Vput(K key, Vv value) { 

Entry entry = findEntry(key); 

If (entry == nul1) { 
entries.add(new Entry(key, value)); 
return null; 

} else { 

V oldValue = entry.getValue(); 
entry.setValue(value); 
return oldValue; 
} 
} 
public V get(Object key) 1{ 

Entry entry = findEntry(key); 

If (entry == null) { 
return null; 


return entry.getValue(); 


} 
public V remove(Object key) 1{ 
Entry entry = findEntry(key); 
If (entry == null) { 
rekurna mu 
} else { 
V value = entry.getValue(); 
entries.remove(entry); 
return value; 


put 调用 findEntry 之 后 ， 其 他 一 切 都 是 常数 时 间 。 记 住 这 个 entries 是 一 个 ArrayList ， 
En 
必须 调用 entry.getvalue 和 entry.setValue ， 而 这 些 都 是 常数 时 间 。 把 它们 放 在 一 

起 ， put 是 线性 的 。 


同样 ， get 也 是 线性 的 。 


remove 稍微 复杂 一 些 ， 因 为 entries.remove 可 能 需要 从 一 开始 或 中 间 删 除 ArrayList 的 一 个 
元 素 ， 并 且 需 要 线性 时 间 。 但 是 没关系 : 两 个 线性 运算 仍然 是 线性 的 。 


总 而 言 之 ， 核 心 方法 都 是 线性 的 ， 这 就 是 为 什么 我 们 将 这 个 实现 称 为 MyLinearMap ( 哄 
哄 1)。 


如 果 我 们 知道 输入 的 数量 答 少 。 ， 这 个 实现 可 能 会 很 好 ， 但 是 我 们 可 以 做 得 更 好 。 实 际 
上 ， Map 所 有 的 核心 方法 都 是 常数 时 间 的 实现 。 当 你 第 一 次 听 到 这 个 消息 时 ， 可 能 似乎 觉得 
不 可 能 。 实 际 上 我 们 所 说 的 是 ， 你 可 以 在 常数 时 间 内 大 海 捞 针 ， 不 管 海 有 多 大 。 这 是 魔法 。 


我 们 不 是 将 条 目 存 储 在 一 个 大 的 List 中 ， 而 是 把 它们 分 解 成 许多 短 的 列表 。 对 于 每 个 键 ， 我 
们 将 使 用 哈 希 码 (在 下 一 节 中 进行 说 明 ) 来 确定 要 使 用 的 列表 。 使 用 大 量 的 简短 列表 比 仅仅 
使 用 一 个 更 快 ， 但 正如 我 将 解释 的 ， 它 不 会 改变 增长 级 别 ; 核心 功能 仍然 是 线性 的 。 但 还 有 

一 个 技巧 : 如 果 我 们 增加 列表 的 数量 来 限制 每 个 列表 的 条 目 数 ， 就 会 得 到 一 个 恒定 时 间 的 映 

射 。 你 会 在 下 一 个 练习 中 看 到 细节 ， 但 是 首先 要 了 解 哈 希 ! 


在 下 一 章 中 ， 我 将 介绍 一 种 解决 方案 ， 分 析 Map 核心 方法 的 性 能 ， 并 引入 更 有 效 的 实现 。 
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在 本 章 中 ， 我 定义 了 一 个 比 MyLinearMap 更 好 的 Map 接口 实现 ， MyBetterMap ， 并 引入 哈 希 ， 
这 使 得 MyBetterMap 效率 更 高 。 


10.1 哈 希 


为 了 提高 MyLinearMap 的 性 能 ， 我 们 将 编写 一 个 新 的 类 ， 它 被 称 为 MyBetterMap ， 它 包 
含 MyLinearMap 对 象 的 集合 。 它 在 内 上 散 的 映射 之 间 划 分 键 ， 因 此 每 个 映射 中 的 条 目 数量 更 小 ， 
这 加 快 了 findEntry ， 以 及 依赖 于 它 的 方法 的 速度 。 


这 是 类 定义 的 开始 : 


public class MyBetterMap<K，V> implements Map<K，V> { 
protected List<MyLinearMap<K, V>> maps; 
public MyBetterMap(int k) { 
makeMaps(k); 
} 


protected void makeMaps(int k) { 
maps = new ArrayList<MyLinearMap<K, V>>(k); 
for (int i=0; i<k; i++) { 
maps.add(new MyLinearMap<K, V>()); 
} 


实例 变量 maps 是 一 组 MyLinearMap 对 象 。 构 造 函 数 接受 一 个 参数 k ， 决定 至 少 最 开始 ， 要 使 
用 多 少 个 映射 。 然 后 makeMaps 创建 内 许 的 映射 并 将 其 存储 在 一 个 ArrayList 中 。 


现在 ， 完 成 这 项 工作 的 关键 是 ， 我 们 需要 一 些 方法 来 查看 一 个 键 ， 并 决定 应 该 进入 哪个 映 
射 。 当 我 们 put 一 个 新 的 键 时 ， 我 们 选择 一 个 映射 ; 当 我 们 get 同样 的 键 时 ， 我 们 必须 记 住 
我 们 把 它 放 在 哪里 。 

一 种 可 能 性 是 随机 选择 一 个 子 映射 ， 并 跟踪 我 们 把 每 个 键 放 在 哪里 。 但 我 们 应 该 如 何 跟踪 ?了 
看 起 来 我 们 可 以 用 一 个 Map 来 查找 键 ， 并 找到 正确 的 子 映 射 ， 但 是 练习 的 重点 是 编写 一 个 有 
效 的 Map 实现 。 我 们 不 能 假设 我 们 已 经 有 了 。 


一 个 更 好 的 方法 是 使 用 一 个 哈 希 函数 ， 它 接受 一 个 object ， 一 个 任意 的 object ， 并 返回 一 
个 称 为 哈 希 码 的 整数 。 重 要 的 是 ， 如 果 它 不 止 一 次 看 到 相同 的 object ， 它 总 是 返回 相同 的 哈 
希 码 。 这 样 ， 如 果 我 们 使 用 哈 希 码 来 存储 键 ， 当 我 们 查找 时 ， 我 们 将 得 到 相同 的 哈 希 码 。 


在 Java 中 ， 每 个 object 都 提供 了 hashcode ， 一 种 计算 哈 希 函数 的 方法 。 这 种 方法 的 实现 对 
于 不 同 的 对 象 是 不 同 的 ; 我 们 会 很 快 看 到 一 个 例子 。 


这 是 一 个 辅助 方法 ， 为 一 个 给 定 的 键 选择 正确 的 子 映射 : 


protected MyLinearMap<K，V> chooseMap(Object key) { 
int index = 0; 
If (key != null) { 
index = Math.abs(key.hashCode()) % maps.size(); 
} 


return maps.get(index); 


如 果 key 是 null ， 我 们 任意 选择 索引 为 6 的 子 映 射 。 否 则 ， 我 们 使 用 hashcode 获取 一 个 整 
数 ， 调 用 Math.abs 来 确保 它 是 非 负 数 ， 然 后 使 用 余数 运 莫 符 % ， 这 保证 结果 

在 0 和 maps.size()-1 之 间 。 所 以 index 总 是 一 个 有 效 的 maps 索引 。 然后 chooseMap 返回 为 
其 所 选 的 映射 的 引用 。 


我 们 使 用 chooseMap 的 put 和 get ， 所 以 当 我 们 查询 键 的 时 候 ， we 村 到 添加 时 所 选 的 相同 
映射 ， 我 们 选择 了 相同 的 映射 。 至 少 应 该 是 - 稍 后 我 会 解释 为 什么 这 可 能 不 起 作用 。 


这 是 我 的 put 和 get 的 实现 : 


public V put(K key, V value) { 
MyLinearMap<K, V> map = chooseMap(key); 
return map.put(key, value); 
} 


public V get(Object key) 1{ 
MyLinearMap<K, V> map = chooseMap(key); 
return map.get(key); 


很 简单 ， 对 吧 ? 在 这 两 种 方法 中 ， 我 们 使 用 chooseMap 来 找到 正确 的 子 映 射 ， 然 后 在 子 映 射 
ee， 这 就 是 它 的 工作 原理 。 现 在 让 我 们 考虑 一 下 性 能 。 
如 果 在 k 个 子 映射 中 分 配 了 n 个 条 目 ， 则 平均 每 个 映射 将 有 n/k 个 条 目 。 当 我 们 查找 一 个 
键 时 ， 我 们 必须 计算 其 哈 希 码 ， 这 需要 一 些 时 间 ， 然 后 我 们 搜索 相应 的 子 映 射 。 
MyBetterMap 中 的 条 目 列表 ， 比 MyLinearMap 中 的 短 k 倍 ， 我 们 的 预期 是 k 倍 的 搜索 速 
但 运行 时 间 仍 然 与 n 成 正比 ， 所 以 MyBetterMap 仍然 是 线性 的 。 在 下 一 个 练习 中 ， 你 将 
po 个 问题 。 


10.2 哈 希 如 何 工 作 ? 


哈 希 函数 的 基本 要 求 是 ， 每 次 相同 的 对 象 应 该 产生 相同 的 哈 希 码 。 对 于 不 变 的 对 象 ， 这 是 比 
较 容易 的 。 对 于 具有 可 变 状态 的 对 象 ， 我 们 必须 花费 更 多 精力 。 


作为 一 个 不 可 变 对 象 的 例子 2 我 将 定义 一 个 SillyString 类 ， 它 包含 一 个 String 


pubilne nelass Subly Sernge 
private final String innerString; 


public SillyString(String innerString) { 
this.innerstring = innerString; 
} 


publuc String tosermoau) et 
return innerSstring; 
} 


这 个 类 不 是 很 有 用 ， 所 以 它 叫 做 sillystring 。 但 是 我 会 使 用 它 来 展示 ， 一 个 类 如 何 定义 它 自 
己 的 哈 希 函数 : 


Q@override 
public boolean equals(Object other ) { 

return this.toSstring().equals(other.toString()); 
} 


Q@Override 
publre mnt hashCode() ne 
int total = 0; 
for (int i=0; i<innerString.length(); i++) { 
total += innerString.charAt(i); 


return total; 


注意 SillyString 重 写 了 equals 和 hashcode 。 这 个 很 重要 。 为 了 正常 工作 ” equals 必须 
和 hashcode 一 致 ， 这 意味 着 如 果 两 个 对 象 被 认为 是 相等 的 - 也 就 是 说 ， equals 返回 true - 
它们 应 该 有 相同 的 哈 希 码 。 但 这 个 要 求 只 是 单 向 的 ; 如 果 两 个 对 象 具 有 相同 的 哈 希 码 ， 则 它 
们 不 一 定 必 须 相 等 。 


equals 通过 调用 tostring 来 工作 ， 返 回 innerstring 。 因 此 ， 如 果 两 个 sillystring 对 象 
的 innerString 实例 变量 相等 ， 它 们 就 相等 。 


hashcode 的 原 理 是 ， 和 从 迭代 String 中 的 字符 并 将 它们 相 加 9 当 你 向 int 添加 一 个 字符 时 
Java 将 使 用 其 Unicode 代码 点 ， 将 字符 转换 为 整数 。 你 不 需要 了 解 Unicode 的 任何 信息 来 弄 
清 此 示例 ， 但 如 果 你 好 奇 ， 可 以 在 http://thinkdast.com/codepoint 上 阅读 更 多 内 容 。 


该 哈 希 函数 满足 要 求 : 如 果 两 个 Sillystring 对 象 包 含 相等 的 内 髋 字符 囊 ， 则 它们 将 获得 相同 
的 哈 希 码 。 


这 可 以 正常 工作 ， 但 它 可 能 不 会 产生 良好 的 性 能 ， 因 为 它 为 许多 不 同 的 字符 串 返 回 相 同 的 哈 
项 码 。 如 果 两 个 字符 串 以 任何 顺序 包含 相同 的 字母 ， 它 们 将 具有 相同 的 哈 希 码 。 即 使 它们 不 
包含 相同 的 字母 ， 它 们 可 能 会 产生 相同 的 总 量 ， 例 如 "ac" 和 "bb" 。 


如 果 许 多 对 象 具 有 相同 的 哈 希 码 ， 它 们 将 在 同 网 。 如 果 一 些 子 映射 比 其 他 映射 有 
更 多 的 条 目 ， 那 么 当 我 们 有 k 个 映射 时 ， 加 速 比 可 能 远 远 小 于 k 。 所 以 哈 希 函数 的 目的 之 一 
是 统一 ; 也 就 是 说 ， 以 相等 的 可 能 性 ， 在 这 个 范围 内 产生 任何 值 。 你 可 以 在 
http://thinkdast.com/hash 上 阅读 更 多 设计 完成 的 ， 散 列 函 数 的 信息 。 


10.3 哈 希 和 可 变 


String 是 不 可 变 的 ， SillyString 也 是 不 可 变 的 ， 因 为 innerString 定义 为 final 。 一 旦 你 
创建 了 = SillyString ， 你 不 能 使 innerString 引用 不 同 的 String ， 你 不 能 修改 所 指向 
的 string 。 因 此 ， 它 将 始终 具有 相同 的 哈 希 码 。 


但 是 让 我 们 看 看 一 个 可 变 对 象 会 发 生 什 么 。 这 是 一 个 sillyArray 定义 ， 它 与 Sillystring 类 
似 ， 除 了 它 使 用 一 个 字符 数组 而 不 是 一 个 String 


publre rolass SmblivArrav { 
private final char[] array; 


public SillyArray(char[] array) { 
this.array = array; 
} 


publae Serinon tosenome 
return Arrays.tostring(array); 
} 


Q@Override 
public boolean equals(Object other) { 

return this.toSstring().equals(other.toString()); 
} 


Q@override 
public int hashcode() { 
int total = ©; 
for (int i=0; i<array.length; i++) { 
total += array[i]; 


System.out.println(total); 
return total; 


SillyArray 也 提供 setchar ， 它 能 够 修改 修改 数组 内 的 字符 。 


pubilne vondsetChnar (ne La char ey 
this.array[i] = c; 
} 


现在 假设 我 们 创建 了 一 个 sillyArray ， 并 将 其 添加 到 map 。 


SillyArray array1 = new SillyArray("Wordi".toCharArray()); 
map.put(array1i, 1); 


这 个 数组 的 哈 希 码 是 461 。 现 在 如 果 我 们 修改 了 数组 内 容 ， 之 后 尝试 查询 它 ， 像 这 样 


arrayl1.setchar(0, 'C'); 
Integer value = map.get(array1); 


修改 之 后 的 哈 希 码 是 441 。 使 用 不 同 的 哈 希 码 ， 我 们 就 很 可 能 进入 了 错误 的 子 映射 。 这 就 很 
糟 灿 了 。 


一 般 来 说 ， 使 用 可 变 对 象 作为 散 列 数据 结构 中 的 键 是 很 危险 的 ， 这 包 
括 MyBetterMap 和 HashMap ° 如 果 你 可 以 保证 映射 中 的 键 不 被 修改 ， 或 者 任何 更 改 都 不 会 影响 
哈 希 码 ， 那 么 这 可 能 是 正确 的 。 但 是 避免 这 样 做 可 能 是 一 个 好 主意 。 


10.4 练习 8 


在 这 个 练习 中 ， 你 将 完成 MyBetterMap 的 实现 。 在 本 书 的 仓库 中 ， 你 将 找到 此 练习 的 源 文件 : 


e MyLinearMap.java 包含 我 们 在 以 前 的 练习 中 的 解决 方案 ， 我 们 将 在 此 练习 中 加 以 利用 。 
© MyBetterMap.java 包含 上 一 章 的 代码 ， 你 将 填充 一 些 方法 。 

© MyHashMap.java 包含 按 需 增长 的 哈 希 表 的 概要 ， 你 将 完成 它 。 

© MyLinearMapTest .java 包含 MyLinearMap 的 单元 测试 © 

e MyBetterMapTest.java 包含 MyBetterMap 的 单元 测试 。 

e MyHashMapTest.java 包含 MyHashMap 的 单元 测试 。 

e profiler.java 包含 用 于 测量 和 绘制 运行 时 间 与 问题 大 小 的 代码 。 

e ProfileMapPut.java 包含 配置 该 Map.put 方法 的 代码 。 


像 往常 一 样 ， 你 应 该 运行 ant build 来 编译 源 文件 。 然 后 运行 ant MyBetterMapTest 。 几 个 测 
试 应 该 失败 ， 因 为 你 有 一 些 工作 要 做 ! 


从 以 前 的 章节 回顾 put 和 get 的 实现 。 然后 卉 充 containskey 的 主体 。 提 示 : 使 


用 chooseMap “ 再 次 运行 ant MyBetterMapTest 并 确认 通过 了 testContainsKey ° 


填充 containsValue 的 主体 。 提 示 : 不 要 使 用 chooseMap ° ant MyBetterMapTest 再 次 运行 并 
确认 通过 了 testcontainsValue 。 请 注意 ， 比 起 找到 一 个 键 ， 我 们 必须 做 更 多 的 操作 才能 找到 
一 个 值 。 


类 似 put 和 get ， 这 个 实现 的 containskey 是 线性 的 ， 因 为 它 搜 索 了 内 诅 子 映射 之 一 。 在 下 
一 章 中 ， 我 们 将 看 到 如 何 进一步 改进 此 实现 。 


第 十 一 章 HashMap 


原文 : Chapter 11 HashMap 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


上 一 章 中 ， 我 们 写 了 一 个 使 用 哈 希 的 Map 接口 的 实现 。 我 们 期 望 这 个 版 本 更 快 ， 因 为 它 搜索 
的 列表 较 短 ， 但 增长 顺序 仍然 是 线性 的 。 

如 果 存 在 n 个 条 目 和 k 个 子 映射 ， 则 子 映射 的 大 小 平均 为 n/k ， 这 仍然 与 n 成 正比 。 但 
是 ， 如 果 我 们 与 n 一 起 增加 k ， 我 们 可 以 限制 nk 的 大 小 。 

例如 ， 假 设 每 次 n 超过 k 的 时 候 ， 我 们 都 使 k 加 倍 ; 在 这 种 情况 下 ， 每 个 映射 的 条 目的 平 
均 数 量 将 小 于 1 ， 并 且 几 乎 总 是 小 于 16 ， 只 要 散 列 函数 能 够 很 好 地 展开 键 。 

如 果 每 个 子 映射 的 条 目 数 是 不 变 的 ， 我 们 可 以 在 常数 时 间 内 搜索 一 个 子 映射 。 并 且 计 算 散 列 
函数 通常 是 常数 时 间 ( 它 可 能 取决 于 键 的 大 小 ， 但 不 取决 于 键 的 数量 ) 。 这 使 得 Map 的 核心 
方法 ， put 和 get 时 间 不 变 。 


在 下 一 个 练习 中 ， 你 将 看 到 细节 。 


11.1 练习 9 
在 MyHashMap .java 中 ， 我 提供 了 哈 希 表 的 大 纲 ， 它 会 按 需 增长 。 这 里 是 定义 的 起 始 : 


public class MyHashMap<K, V> extends MyBetterMap<K，V> implements Map<K, V> { 


// average number of entries per sub-map before we rehash 
private static final double FACTOR = 1.0; 


@Override 
public V put(K key, V value) { 
V oldValue = super.put(key, value); 


// check if the number of elements per sub-map exceeds the threshold 
if (size() > maps.size() * FACTOR) { 
rehash( ); 


return oldValue; 


MyHashMap 扩展 了 MyBetterMap ， 所 以 它 继承 了 那里 定义 的 方法 。 它 覆盖 的 唯一 方法 

是 put ， 它 调用 了 超 类 中 的 put -- 也 就 是 说 ， 它 调用 了 MyBetterMap 中 的 put 版 本 -- 然后 
它 检查 它 是 否 必 须 rehash 。 调 用 size 返回 总 数量 n 。 调 用 maps.size 返回 内 齿 映 射 的 数 
量 k。 


常数 FAcTOR ( 称 为 负载 因子 ) 确定 每 个 子 映 射 的 平均 最 大 条 目 数 。 如 果 n > k * FACTOR ， 这 
意味 着 n/k > FACTOR ， 意 味 着 每 个 子 映射 的 条 目 数 超过 阅 值 ， 所 以 我 们 调用 rehash 。 


运行 ant build 来 编译 源 文件 。 然 后 运行 ant MyHashMapTest 。 它 应 该 失败 ， 因 为 执 
行 rehash 会 抛 出 异常 。 你 的 工作 是 填充 它 9 


填充 rehash 的 主体 ， 来 收集 表 中 的 条 目 ， 调 整 表 的 大 小 ， 然 后 重新 放 入 条 目 。 我 提供 了 两 种 
可 能 会 派 上 用 场 的 方法 : MyBetterMap ,makeMaps 和 MyLinearMap.getEntries ° 每 次 调用 它 时 ， 
你 的 解决 方案 应 该 使 映射 数量 加 倍 。 


11.2 分 析 MyHashMap 


如 果 最 大 子 映射 中 的 条 目 数 与 nyk 成 正比 ， 并 且 k 与 n 成 正比 ， 那 么 多 个 核心 方法 就 是 常 
数 时 间 的 : 


public boolean containsKey (Object target) { 
MyLinearMap <K，V> map = chooseMap (target) ; 
return map.containskey (target) ; 


} 


public V get (Object key) { 
MyLinearMap <K，V> map = chooseMap (key) ; return map.get (key) ; 


} 
public V remove (Object key) { 


MyLinearMap <K，V> map = chooseMap (key) ; 
return map.remove (key) ; 


每 个 方法 都 计算 键 的 哈 布 ， 常数 时 间 ， 然 后 在 一 个 子 映射 上 调用 一 个 方法 ， 方法 是 
常数 时 间 的 。 


到 现在 为 止 还 挺 好 。 但 另 一 个 核心 方法 ， put 有 点 难 分 析 。 当 我 们 不 需要 rehash 时 ， 它 是 不 
变 的 时 间 ， 但 是 当 我 们 这 样 做 时 ， 它 是 线性 的 。 这 样 ， 它 与 3.2 节 中 我 们 分 析 


的 ArrayList.add 类 似 。 


出 于 同样 的 原因 ， 如 果 我 们 平 摊 一 系列 的 调用 ， 结 果 是 常数 时 间 。 同 样 ， 论 证 基于 挫 销 分 析 
( 见 3.2 节 ) 。 

假设 子 映 射 的 初始 数量 k 为 2 ， 负 载 因子 为 1 。 现 在 我 们 来 看 看 put 一 系列 的 键 需要 多 少 
工作 量 。 作 为 基本 的 "工作 单位 "， 我 们 将 计算 对 密 钥 哈 希 ， 并 将 其 添加 到 子 映射 中 的 次 数 。 


我 们 第 一 次 调用 put 时 ， 它 需要 1 个 工作 单位 。 第 二 次 也 需要 1 个 单位 。 第 三 次 我 们 需 
要 rehash ， 所 以 需要 2 个 单位 重新 卉 充 现 有 的 键 和 1 个 单位 来 对 新 键 哈 希 


译 者 注 : 可 以 单独 计算 rehash 中 转移 元 素 的 数量 ， 然 后 将 元 素 转移 的 复杂 度 和 计算 哈 希 
的 复杂 度 相 加 。 
现在 哈 希 表 的 大 小 是 4 ， 所 以 下 次 调用 put 时 ， 需 要 1 个 工作 单位 。 但 是 下 一 次 我 们 必 
须 rehash ， 需 要 4 个 单位 来 rehash 现 有 的 键 ， 和 1 个 单位 来 对 新 键 哈 希 。 


图 11.1 展示 了 规律 ， 对 新 键 哈 希 的 正常 工作 量 在 底部 展示 ， 额 外 工作 量 展示 为 塔楼 。 


Total of two units per put 


遍 届 | 加 天 画 吉 | 国医 图 本 面 羡 网 国 
[12][s1s][sTlel7 Te][sTolnl2lslialisle 画 醒 | 画 画 | 画图 本 而 | 男 葡 电 夯 男 轩 国 旺 


One unit of work to add each new element 


One unit per rehash 


图 11.1 : 向 哈 希 表 添 加 元 素 的 工作 量 展 示 


如 箭头 所 示 ， 如 果 我 们 把 塔楼 推倒 ， 每 个 积木 都 会 在 下 一 个 塔楼 之 前 填 满 宝 间 。 结 果 似 
乎 2 个 单位 的 均匀 高 度 ， 这 表明 put 的 平均 工作 量 约 为 2 个 单位 。 这 意味 着 put 平均 是 党 
数 时 间 。 


这 个 图 还 显示 了 ， 当 我 们 rehash 的 时 候 ， 为 什么 加 倍 子 映射 数量 k 很 重要 。 如 果 我 们 只 是 
加 上 k 而 不 是 加 倍 ， 那 么 这 些 塔 楼 会 靠 的 太 近 ， 他 们 会 开始 堆积 。 这 样 就 不 会 是 常数 时 间 
了 3 


11.3 权衡 


我 们 已 经 表明 ， containskey ， get 和 remove 是 常数 时 间 ， put 平均 为 常数 时 间 。 我 们 应 该 
花 一 点 时 间 来 欣赏 它 有 多 么 出 色 。 无 论 哈 希 表 有 多 大 ， 这 些 操作 的 性 能 几乎 相同 。 算 是 这 样 
P 巴 


记 住 ， 我 们 的 分 析 基 于 一 个 简单 的 计算 模型 ， 其 中 每 个 “工作 单位 "花费 相同 的 时 间 量 。 站 正 的 
电脑 比 这 更 复杂 。 特 别 是 ， 当 处 理 足 够 小 ， 适 应 高 速 缓存 的 数据 结构 时 ， 它 们 通常 最 快 ; 如 
果 结 构 不 适合 高 速 缓存 但 仍 适合 内 存 ， 则 稍 慢 一 点 ; 如 果 结 构 不 适合 在 内 存 中 ， 则 非常 慢 。 


这 个 实现 的 另 一 个 限制 是 ， 如 果 我 们 得 到 了 一 个 值 而 不 是 一 个 键 时 ， 那 么 散 列 是 不 会 有 帮助 
的 : containsValue 是 线性 的 ， 因 为 它 必须 搜索 所 有 的 子 映 射 。 查 找 一 个 值 并 找到 相应 的 键 
(或 可 能 的 键 ) ， 没 有 特别 有 效 的 方式 。 


还 有 一 个 限制 : MyLinearMap 的 一 些 常数 时 间 的 方法 变 成 了 线性 的 。 例 如 : 


publric vondrelear( ne 
for (int i=0; i<maps.size(); I++) { 
maps.get(i).clear(); 


clear 必须 清除 所 有 的 子 映射 ， 子 映射 的 数量 与 n 成 正比 ， 所 以 它 是 线性 的 。 幸 运 的 是 ， 这 
个 操作 并 不 常用 ， 所 以 在 大 多 数 应 用 中 ， 这 种 权衡 是 可 以 接受 的 。 


11.4 分 析 MyHashMap 


在 我 们 继续 之 前 ， 我 们 应 该 检查 一 下 ， MyHashMap .put 是 否 卜 的 是 常数 时 间 。 


运行 ant build 来 编译 源 文 件 。 然 后 运行 ant ProfileMapPut ° 它 使 用 一 系列 问题 规模 ， 测 量 
HashMap.put (由 Java 提供 ) 的 运行 时 间 ， 并 在 重 对 数 比 例 尺 上 绘制 运行 时 间 与 问题 规模 。 
如 果 这 个 操作 是 常数 时 间 ，n 个 操作 的 总 时 | ， 所 以 结果 应 该 是 斜率 为 1 的 直 
线 。 当 我 运行 这 个 代码 时 ， 信 计 的 儿 率 接近 1 ， 这 与 我 们 的 分 析 一 致 。 你 应 该 得 到 类 似 的 东 

西 。 


FE 


修改 ProfileMapPut.java ， 来 测量 你 的 MyHashMap 实现 ， 而 不 是 Java 的 HashMap ° 再 次 运 和 
分 析 器 2 et dq ° 你 可 能 需要 调整 startN 和 endMillis ， 来 找到 一 系列 问题 规 
模 ， 其 中 运行 时 间 多 于 几 毫 秒 ， 但 不 超过 几 秒 。 


个 代码 时 ， 我 感到 惊讶 : 斜率 大 约 为 1.7 ， 这 表明 这 个 实现 不 是 一 直 都 是 常数 


当 我 运行 这 
它 包含 一 个 “性 能 错误 ”。 


的 。 


在 阅读 下 一 节 之 前 ， 你 应 该 跟踪 错误 ， 修 复 错 误 ， 并 确认 现在 put 是 常数 时 间 ， 符 合 预期 。 


J 
11.5 修复 MyHashMap 
MyHashMap 的 问题 是 size ， 它 继承 自 MyBetterMap 


pubilrc ant srzeln 
int total = 0©; 
for (MyLinearMap<K, V> map: maps) { 
total += map.size(); 


return total; 


为 了 累计 整个 大 小 ， 它 必须 迭代 子 映 射 。 由 于 我 们 增加 了 子 映 射 的 数量 k ， 随 着 条 目 数 n 增 
加 ， 所 以 与 n 成 正比 ， 所 以 size 是 线性 的 。 


put 也 是 线性 的 ， 因 为 它 使 用 size : 


publac Vput(K key V valuede 
V oldValue = super.put(key, value); 


if (size() > maps.size() * FACTOR) { 
rehash(); 


return oldValue; 


如 果 size 是 线性 的 ， 我 们 做 的 一 切 都 浪费 了 。 


幸运 的 是 ， 有 一 个 简单 的 解决 方案 ， 我 们 以 前 看 过 : 我 们 必须 维护 实例 变量 中 的 条 目 数 ， 并 
且 每 当 我 们 调用 一 个 改变 它 的 方法 时 更 新 它 。 


去 
你 会 在 这 本 书 的 仓库 中 找到 我 的 解决 方案 MyFixedHashMap.java 。 这 是 类 定义 的 起 始 : 


public class MyFixedHashMap<K，V> extends MyHashMap<K，V> implements Map<K，V> { 
private int size = 0; 


publrec void elear() 
super .clear(); 
SIZe 0 


我 们 不 修改 MyHashMap ， 我 定义 一 个 扩展 它 的 新 类 。 它 添加 一 个 新 的 实例 变量 size ， 它 被 初 
始 化 为 零 。 


更 新 clear 很 简单 ; 我 们 在 超 类 中 调用 clear (清除 子 映 射 ) ， 然 后 更 新 size 。 


更 新 remove 和 put 有 点 困难 ， 因 为 当 我 们 调用 超 类 的 该 方法 ， 我 们 不 能 得 知 子 映射 的 大 小 是 
否 改 变 。 这 是 我 的 解决 方式 : 


public V remove(Object key) { 
MyLinearMap<K, V> map = chooseMap(key); 
size -= map.size(); 
V oldValue = map.removel(key); 
size += map.size(); 
return oldValue; 


remove 使 用 chooseMap 找到 正确 的 子 映射 ， 然 后 减 去 子 映 射 的 大 小 。 它 会 在 子 映射 上 调 
用 remove ， 根 据 是 否 找 到 了 键 ， 它 可 以 改变 子 映 射 的 大 小 ， 也 可 能 不 会 改变 它 的 大 小 。 但 是 
无 论 哪 种 方式 ， 我 们 将 子 映射 的 新 大 小 加 到 size ， 所 以 最 终 的 size 值 是 正确 的 。 


重 写 的 put 版 本 是 类 似 的 : 


publne Vpue(K key Vv valued 
MyLinearMap<K, V> map = chooseMap(key); 
size -= map.size(); 
V oldValue = map.put(key, value); 
size += map.size(); 
if (size() > maps.size() * FACTOR) { 
size = 0; 
rehash( ); 


return oldValue; 


我 们 在 这 里 也 有 同样 的 问题 : 当 我 们 在 子 地 图 上 调用 put 时 ， 我 们 不 知道 是 否 添加 了 一 个 新 
的 条 目 。 所 以 我 们 使 用 相同 的 解决 方案 ， 减 去 昌 的 大 小 ， 然 后 加 上 新 的 大 小 。 


现在 size 方法 的 实现 很 简单 了 : 


publric nt size(D 
return size; 
} 


并 且 正 好 是 常数 时 间 。 


当 我 测量 这 个 解决 方案 时 ? 我 发 现 放 入 n 个 键 的 总 时 间 正 比 于 n ， 也 就 是 说 ， 每 个 En 是 
常数 时 间 的， 符合 预期 。 


11.6 UML 类 图 


在 本 章 中 使 用 代码 的 一 个 挑战 是 ， 我 们 有 几 个 互相 依赖 的 类 。 以 下 是 类 之 间 的 一 些 关系 : 


e MyLinearMap 包含 一 个 LinkedList 并 实现 了 Map 。 

© MyBetterMap 包含 许多 MyLinearMap 对 象 并 实现 了 Map ° 

e。 MyHashMap 扩展 了 MyBetterMap ， 所 以 它 也 包含 MyLinearMap 对 象 ， 并 实现 了 Map 。 
© MyFixedHashMap 扩展 了 MyHashMap 并 实现 了 Map “ 


为 了 有 助 于 跟踪 这 些 关系 ， 软 件 工程 师 经 常 使 用 UML 类 图 。UML 代表 统一 建 模 语言 ( 见 
http://thinkdast.com/um| ) 。“ 类 图 "是 由 UML 定义 的 几 种 图 形 标准 之 一 。 


在 类 图 中 ， 每 个 类 由 一 个 框 表示 ， 类 之 间 的 关系 由 箭头 表示 。 图 11.2 显示 了 使 用 在 线 工具 
yUML (http://yuml.me/) 生成 的 ， 上 一 个 练习 的 UML 类 图 。 








图 11.2 : 本 章 中 的 UML 类 图 


不 同 的 关系 由 不 同 的 箭头 表示 : 


。 实心 箭头 表示 HAS-A 关系 。 例 如 ， 每 个 MyBetterMap 实例 包含 多 个 MyLinearMap 实例 ， 
因此 它们 通过 实 线 箭头 连接 。 

e。 空心 和 实 线 箭 头 表示 |S-A 关系 。 例 如 ， MyHashMap 扩展 了 MyBetterMap ， 因 此 它们 通过 
IS-A 箭头 连接 。 

。 空心 和 虚线 箭头 表示 一 个 类 实现 了 一 个 接口 ;在 这 个 图 中 ， 每 个 类 都 实现 Map 。 


UML 类 图 提供 了 一 种 简洁 的 方式 ， 来 表示 大 量 类 集合 的 信息 。 在 设计 阶段 中 ， 它 们 用 于 交流 
备 选 设计 ， 在 实施 阶段 中 ， 用 于 维护 项 目的 共享 思维 导 图 ， 并 在 部 署 过 程 中 记录 设计 。 
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这 一 章 展示 了 二 又 搜索 树 ， 它 是 个 Map 接口 的 高 效 实现 。 如 果 我 们 想 让 元 素 有 序 ， 它 非常 实 
用 。 


12.1 哈 项 哪 里 不 对 ? 


此 时 ， 你 应 该 熟悉 Java 提供 的 Map 接口 和 HashMap 实现 。 通 过 使 用 哈 希 表 来 制作 你 自己 
的 Map ， 你 应 该 了 解 HashMap 的 工作 原理 ， 以 及 为 什么 我 们 预计 其 核心 方法 是 常数 时 间 的 。 


由 于 这 种 表现 ， Hashwap 被 广泛 使 用 ， 但 并 不 是 唯一 的 Map 实现。 有 几 个 原因 可 能 需要 另 一 
个 实现 : 
哈 希 可 能 很 慢 ， 所 以 即使 HashMap 操作 是 常数 时 间 ，" 常 数 " 可 能 很 大 。 如 果 哈 布 函 数 将 键 均 
匀 分 配给 巴 映 射 ， 效 果 很 好 。 但 设计 良好 的 散 列 函 数 并 不 容易 ， 如 果 太 多 的 键 在 相同 的 子 映 
射 上 ， 那 么 HashMap 的 性 能 可 能 会 很 差 。 哈 希 表 中 的 键 不 以 任何 特定 顺序 存储 ; 实际 上 ， 当 
表 增 长 并 且 键 被 重新 排列 时 ， 顺 序 可 能 会 改变 。 对 于 某 些 应 用 程序 ， 必 须 或 至 少 保持 键 的 顺 
序 ， 这 很 有 用 。 
很 难 同时 解决 所 有 这 些 问 题 ， 但 是 Java 提供 了 一 个 称 为 TreeMap 的 实现 : 

e 它 不 使 用 哈 希 函数 ， 所 以 它 避 免 了 哈 希 的 开销 和 选择 哈 希 函数 的 困难 。 

e 在 TreeMap 之 中 ， 键 被 存储 在 二 又 搜索 树 中 ， 这 使 我 们 可 以 以 线性 时 间 顺 序 遍 历 键 。 

e 核心 方法 的 运行 时 间 与 log(n) 成 正比 ， 并 不 像 常 数 时 间 那 样 好 ， 但 仍然 非常 好 。 
在 下 一 节 中 ， 我 将 解释 二 进 制 搜索 树 如 何 工作 ， 然 后 你 将 使 用 它 来 实现 Map 。 另 外 ， 使 用 树 
实现 时 ， 我 们 将 分 析 映 射 的 核心 方法 的 性 能 。 


12.2 二 又 搜索 树 


二 又 搜索 树 (BST) 是 一 个 树 ， 其 中 每 个 node (节点 ) 包含 一 个 键 ， 并 且 每 个 都 具有 “BST 
属性 ”: 


e 如 果 node 有 一 个 左 子 树 左 子 树 中 的 所 有 键 都 必须 小 于 node 的 键 © 


e 如 果 node 有 一 个 右 子 树 了 右 子 树 中 的 所 有 键 都 必须 大 于 node 的 键 。 


图 12.1 : 二 又 搜索 树 示 例 


图 12.1 展示 了 一 个 具有 此 属性 的 整数 的 树 。 这 个 图 片 来自 二 又 搜索 树 的 维基 百科 页 面 ， 位 于 
http://thinkdast.com/bst ， 当 你 做 这 个 练习 时 ， 你 会 发 现 它 很 实用 。 


根 节 点 中 的 键 为 8 ， 你 可 以 确认 根 节点 左边 的 所 有 键 小 于 8 ， 右 边 的 所 有 键 都 更 大 。 你 还 可 
以 检查 其 他 节点 是 否 具 有 此 属性 。 


在 二 又 搜索 树 中 查找 一 个 键 是 很 快 的 ， 因 为 我 们 不 必 搜 索 整 个 树 。 从 根 节点 开始 ， 我 们 可 以 
使 用 以 下 算法 : 


e@ 将 你 要 查找 的 键 target ， 与 当前 节点 的 键 进行 比较 。 如 果 他 们 相等 ， 你 就 完成 了 。 

e@ 如 果 target 小 于 当前 键 ， 搜索 左 子 树 3 如 果 没 有 ” target 不 在 树 上 。 

e。 如 果 target 大 于 当前 键 搜索 右 子 树 8 如 果 没 有 ” target 不 在 树 上 。 
在 树 的 每 一 层 ， 你 只 需要 搜索 一 个 子 树 。 例 如 ， 如 果 你 在 上 图 中 查找 target = 4 ， 则 从 根 节 
点 开始 ， 它 包含 键 8 。 因 为 target 小 于 8， 你 走 了 左边 。 因为 target 大 于 起 你 走 了 右 
边 。 因 为 target 小 于 6 ， 你 走 了 左边 。 然 后 你 找到 你 要 找 的 键 。 


在 这 个 例子 中 ， 即 使 树 包 含 九 个 键 ， 它 需要 四 次 比较 来 找到 目标 。 一 般 来 说 ， 比 较 的 数量 与 
树 的 高 度 成 正比 ， 而 不 是 树 中 的 键 的 数量 。 


因此 ， 我 们 可 以 计算 树 的 高 度 hn 和 节点 个 数 n 的 关系 。 从 小 的 数值 开始 ， 和 逐渐 增加 : 


如 果 h=1 ， 树 只 包含 一 个 节点 ， 那 么 n=1 。 如 果 h=2 ， 我 们 可 以 添加 两 个 节点 ， 总 
共 n=3 。 如果 h=3 ， 我 们 可 以 添加 多 达 四 个 节点 ， 总 共 n=7 。 如 果 h=4 ， 我 们 可 以 添加 多 
达 八 个 节 点 总 共 n=15 ° 


现在 你 可 能 会 看 到 这 个 规律 。 如 果 我 们 将 树 的 层 数 从 1 数 到 n ， 第 i 层 可 以 拥有 多 
达 2A(n-1) 个 节点 。 h 层 的 树 共 有 2Ah-1 个 节点 。 如 果 我 们 有 : 


n=2Ah -1 


我 们 可 以 对 两 边 取 以 2 为 底 的 对 数 : 


log2(n) = h 


意思 是 树 的 高 度 正比 于 logn ， 如 果 它 是 满 的 。 也 就 是 说 ， 如 果 每 一 层 包 含 最 大 数量 的 节点 。 


所 以 我 们 预计 ， 我 们 可 以 以 正比 于 logn 的 时 间 ， 在 二 又 搜索 树 中 查找 节点 。 如 果树 是 慢 的 ， 
即使 是 部 分 满 的 ， 这 是 对 的 。 但 是 并 不 总 是 对 的 ， 我 们 将 会 看 到 。 


时 间 正 比 于 logn 的 算法 是 对 数 时 间 的 2 并 且 属 于 0(logn) 的 增长 级 别 S 


12.3 练习 10 


对 于 这 个 练习 ， 你 将 要 使 用 二 又 搜索 树 编写 Map 接口 的 一 个 实现 。 
这 里 是 实现 的 开头 ， 叫 做 MyTreeMap : 


public class MyTreeMap<K，V> implements Map<K, V> { 


private int size = 0; 
private Node root = null; 


实例 变量 是 size ， 它 跟踪 了 键 的 数量 ， 以 及 root ， 它 是 树 中 根 节 点 的 引用 。 树 为 空 的 时 


候 ， root 是 nul1 ， Size 是 © ° 


这 里 是 Node 的 定义 ， 它 在 MyTreeMap 之 中 定义 。 


protected class Node { 
public K key; 
public V value; 
public Node left = null; 
public Node right = null; 


public Node(K key, V value) { 


this.key = key; 
this.value = value; 


每 个 节点 包含 一 个 键 值 对 ， 以 及 两 个 子 节点 的 引用 ， left 和 right 。 任 意 子 节点 都 可 以 


为 null ° 


一 些 Map 方法 易于 实现 ， 比 如 size 和 clear 


publncnnme saze( 
return size,; 


} 

publacevomodEclea ne 
size = 0; 
root = null; 

} 


size 显然 是 常数 时 间 的 。 


clear 也 是 常数 时 间 的 ， 但 是 考虑 这 个 : 当 root 赋 为 null 时 ， 垃 圾 收集 器 回收 了 树 中 的 节 
点 ， 这 是 线性 时 间 的 。 这 个 工作 是 否 应 该 由 垃圾 收集 器 的 计数 来 完成 呢 ? 我 认为 是 的 。 


节 中 ， 你 会 填充 一 些 其 它 方法 ， 包 括 最 重要 的 get 和 set 。 


12.4 实现 TreeMap 


这 本 书 的 仓库 中 ， 你 将 找到 这 些 源 文 件 : 


© MyTreeMap ,java 包含 上 一 节 的 代码 ， 其 中 包含 缺失 方法 的 大 纲 。 


© MyTreeMapTest.java 包含 单元 MyTreeMap 的 测试 。 


了 ant build 来 编译 源 文 件 。 然 后 运行 ant MyTreeMapTest “ 几 个 测试 应 该 失败 ， 因为 你 有 


运 和 

一 些 工 作 要 做 ! 
我 已 经 提供 了 get 和 containskey 的 大 纲 。 他 们 都 使 用 findNode ， 这 是 我 定义 的 私有 方法 ; 
它 不 是 Map 。 以 下 是 它 的 起 始 : 


private Node findNode(Object target ) { 
If (target == null) { 
throw new IllegalArgumentException(); 
} 


@Suppresswarnings("unchecked") 
Comparable<? super K> k = (Comparable<? super K>) target; 


2 TODO- EGGETHESEENU 
return null; 


参数 target 是 我 们 要 查找 的 键 。 如 果 target 是 null ， findNode 抛 出 异常 。 一 些 Map 实现 
可 以 将 null 处 理 为 一 个 键 ， Re ， 我 们 需要 能 够 比较 键 ， 所 以 处 理 null 
有 问题 的 。 为 了 保持 简单 ， 这 个 实现 不 将 null 视 为 键 。 


是 


下 一 es target 与 树 中 的 键 进 行 比 较 。 按 照 get 和 containskey 的 签名 〈 名 称 和 参 
数 ) 编译 器 认为 target 是 一 个 object 。 ss ， 我 们 需要 能 够 对 键 进行 比较 ， 所 以 我 们 


将 target 强制 转换 为 Comparable<? super K> ， 这 意味 着 它 可 以 与 类 型 K (或 任何 超 类 ) 的 
示例 比较 。 如 果 你 不 熟悉 “类 型 通配符 "的 用 法 ， 可 以 在 http://thinkdast.com/gentut 上 阅读 更 


幸运 的 是 ，Java 的 类 型 系统 的 处 理 不 是 这 个 练习 的 重点 。 你 的 工作 是 填写 剩 下 的 findNode 。 
如 果 它 发 现 一 个 包含 target 键 的 节点 ， 它 应 该 返回 该 节点 。 否 则 应 该 返回 null 。 当 你 使 其 
工作 ， get 和 containskey 的 测试 应 该 通过 。 

请 注意 ， 你 的 解决 方案 应 该 只 搜索 通过 树 的 一 条 路 径 ， 因此 它 应 该 与 树 的 高 度 成 正比 。 你 不 
应 该 搜索 整 棵 树 ! 

你 的 下 一 个 任务 是 填充 containsvalue 。 为 了 让 你 起 步 ， 我 提供 了 一 个 辅助 方法 equals ， 比 
较 target 和 给 定 的 键 。 请 注意 ， 树 中 的 值 2 不 一 定 是 可 比较 的 ， 所 以 我 们 不 能 使 
用 compareTo ; 我 们 必须 在 target 上 调用 equals ° 


不 像 你 以 前 的 findNode 解决 方案 ， 你 的 containsvalue 解决 方案 应 该 搜索 整个 树 ， 所 以 它 的 
运行 时 间 正 比 于 键 的 数量 n ， 而 不 是 树 的 高 度 h 。 


译 者 注 : 这 里 你 可 能 想 使 用 之 前 讲 过 的 DFS 迭代 器 。 


你 应 该 填充 的 下 一 个 方法 是 put 。 我 提供 了 处 理 简单 情况 的 起 始 代码 : 


publac Vpue(K key Vv valued) ne 
If (key == null) { 
throw new IllegalArgumentException(); 


} 

If (root == null) { 
root = new Node(key, value); 
Sizett+; 
return null; 

} 

return putHelper(root, key, value); 


} 


private V putHelper(Node node, K key, V value) { 
TODO EDIENLS LN 
} 





如 果 你 尝试 将 null 作为 关键 字 ， put 则 会 抛 出 异常 。 

如 果树 为 室 ， 则 put 创建 一 个 新 节点 并 初始 化 实例 变量 root 。 

否则 ， 它 调用 putHelper ， 这 是 我 定义 的 私有 方法 ; 它 不 是 Map 接口 的 一 部 分 。 
填写 putHelper ， 让 它 搜索 树 ， 以 及 : 


ee 如果 key 已 经 在 树 中 ， 它 将 使 用 新 值 蔡 换 昌 值 ;并 返回 昌 值 。 
e。 如 果 key 不 在 树 中 ， 它 将 创建 一 个 新 节点 ， 找 到 正确 的 添加 位 置 ， 并 返回 null 。 


你 的 put 实现 的 是 时 间 应 该 与 树 的 高 度 h 成 正比 ， 而 不 是 元 素 的 数量 n 。 理 想 情况 下 ， 你 
只 需 搜 索 一 次 树 ， 但 如 果 你 发 现 两 次 更 容易 搜索 ， 可 以 这 样 做 : 它 会 慢 一 些 ， 但 不 会 改变 增 
长 级 别 。 


最 后 ， 你 应 该 填充 keyset 。 根 据 http://thinkdast.com/mapkeyset 的 文档 ， 该 方法 应 该 返回 一 
个 set ， 可 以 按 顺序 迭代 键 ; 也 就 是 说 ， 按照 compareTo 方法 ， 升 序 和 迭代 。 我 们 在 8.3 节 中 
使 用 的 Hashset 实现 不 会 维护 键 的 顺序 ， 但 LinkedHashset 实现 可 以 。 你 可 以 阅读 
http://thinkdast.com/linkedhashset 。 


我 提供 了 一 个 keyset 的 大 纲 ， 创 建 并 返回 LinkedHashset 


public Set<K> keySet() { 
Set<K> set = new LinkedHashSet<K>() ; 
return set,; 


你 应 该 完成 此 方法 ， 使 其 以 升序 向 set 添加 树 中 的 键 。 提 示 : 你 可 能 想 编写 一 个 辅助 程序 ; 
你 可 能 想 让 它 北 归 ; 你 也 可 能 想 要 阅读 http://thinkdast.com/inorder 上 的 树 的 中 序 人 遍历 。 


当 你 完成 时 ， 所 有 测试 都 应 该 通过 。 下 一 章 中 ， 我 会 讲解 我 的 解法 ， 并 测试 核心 方法 的 性 
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本 章 介 绍 了 上 一 个 练习 的 解决 方案 ， 然 后 测试 树 形 映射 的 性 能 。 我 展示 了 一 个 实现 的 问题 ， 
并 解释 了 Java 的 TreeMap 如 何 解决 它 。 


13.1 简单 的 MyTreeMap 


上 一 个 练习 中 ， 我 给 了 你 MyTreeMap 的 大 纲 ， 并 让 你 填充 缺失 的 方法 。 现在 我 会 展示 结果 ， 
从 findNode 开始 : 


private Node findNode(Object target) { 
// Some implementations can handle null as a key, but not this one 
If (target == null) { 
throw new IllegalArgumentException(); 
上 


// something to make the compiler happy 
@Suppresswarnings("unchecked") 
Comparable<? super K> k = (Comparable<? super K>) target; 


// the actual search 
Node node = root,; 
while (node != null) { 
int cmp = k.compareTo(node.key); 
if (cmp < 0) 
node = node.1left; 
else if (cmp > 0) 
node = node.right; 
else 
return node; 


} 


net 


findNode 是 containskey 和 get 所 使 用 的 一 个 私有 方法 ; 它 不 是 Map 接口 的 一 部 分 。 参 
数 target 是 我 们 要 查找 的 键 。 我 在 上 一 个 练习 中 解释 了 这 种 方法 的 第 一 部 分 : 


e 在 这 个 实现 中 ， null 不 是 键 的 合法 值 。 

e 在 我 们 可 以 在 target 上 调用 compareTo 之 前 ， 我 们 必须 把 它 强 制 转换 为 某 种 形式 
的 comparable 。 这 里 使 用 的 “类 型 通配符 ”会 尽 可 能 允许 ; 也 就 是 说 ， 它 适用 于 任何 实 
现 Comparable 类 型 ， 并 且 它 的 compareTo 接受 K 或 者 任 和 K 的 超 类 。 


之 后 ， 实 际 搜索 比较 简单 。 我 们 初始 化 一 个 循环 变量 node 来 引用 根 节 点 。 每 次 循环 中 ， 我 们 
将 目标 与 node.key 比较 。 如 果 目 标 小 于 当前 键 ， 我 们 移动 到 左 子 树 。 如 果 它 更 大 ， 我 们 移动 
到 右 子 树 。 如 果 相 等 ， 我 们 返回 当前 节点 。 


如 果 在 没有 找到 目标 的 情况 下 ， 我 们 到 达 树 的 底部 ， 我 就 认为 ， 它 不 在 树 中 并 返回 null 。 


13.2 搜索 值 


我 在 前 面 的 练习 中 解释 了 ， findNode 运行 时 间 与 树 的 高 度 成 正比 ， 而 不 是 节点 的 数量 ， 因 为 
我 们 不 必 搜 索 整 个 树 。 但 是 对 于 containsvalue ， 我 们 必须 搜索 值 ， 而 不 是 键 ; BST 的 特性 
不 适用 于 值 ， 因 此 我 们 必须 搜索 整个 树 。 


我 的 解法 是 递归 的 : 


public boolean containsValue(Object target) { 
return containsValueHelper(root, target); 
} 


private boolean containsValueHelper(Node node, Object target) { 
If (node == null) { 
return false; 


if (equals(target, node.value)) { 
return true; 


If (containsValueHelper(node.left, target)) { 
return true, 


if (containsValueHelper(node.right, target)) { 
return true, 


return false; 


containsValue 将 目 标 值 作为 参数 ， 并 立即 调用 containsValueHelper ， 传递 树 的 根 节 点 作为 
附加 参数 。 


这 是 containsValueHelper 的 工作 原理 。 


e@ 第 一 个 if 语句 检查 递归 的 边界 情况 。 如 果 node 是 null ， 那 意味 着 我 们 已 经 递归 到 树 
的 底部 ， 没 有 找到 target ， 所 以 我 们 应 该 返回 false 。 请 注意 ， 这 只 意味 着 目标 没有 出 
现在 树 的 一 条 路 径 上 ; 它 仍然 可 能 会 在 另 一 条 路 径 上 被 发 现 。 

。 第 二 种 情况 检查 我 们 是 否 找到 了 我 们 正在 寻找 的 东西 。 如 果 是 这 样 ， 我 们 返回 true 。 和 否 
则 ， 我 们 必须 继续 。 

e@ 第 三 种 情况 是 执行 递归 调用 ， 在 左 子 树 中 搜索 target ° 如 果 我 们 找到 它 ， 我 们 可 以 立即 
返回 true ， 而 不 搜索 右 子 树 。 否 则 我 们 继续 。 

e。 第 四 种 情况 是 搜索 右 子 树 。 同 样 ， 如 果 我 们 找到 我 们 正在 寻找 的 东西 ， 我 们 返回 true 。 
和 否则， 我们 搜索 完了 整 棵 树 ， 返 回 false 。 


该 方法 “访问 "了 树 中 的 每 个 节点 ， 所 以 它 的 所 需 时 间 与 节点 数 成 正比 。 


13.3 实现 put 


put 方法 比 起 get 要 复杂 一 些 ， 因为 要 处 理 两 种 情况 : (1) 如 果 给 定 的 键 已 经 在 树 中 ， 则 
替换 并 返回 上 昌 值 ; (2) 否则 必须 在 树 中 添加 一 个 新 的 节点 ， 在 正确 的 地 方 。 


在 上 一 个 练习 中 ， 我 提供 了 这 个 起 始 代码 : 


public V put(K key, V value) { 
if (key == null) { 
throw new IllegalArgumentException(); 


} 

If (root == null) { 
root = new Node(key, value); 
SIZe++， 
return null; 


return putHelper(root, key, value); 


并 且 让 你 十 充 putHelper 。 这 里 是 我 的 答案 : 


private V putHelper(Node node，K key, V value) { 
Comparable<? super K> k = (Comparable<? super K>) key; 
int cmp = k.compareTo(node. key); 


If (cmp < 0) { 
if (node.left == null) { 
node.left = new Node(key, value); 
Sizett+; 
return null; 
} else { 
return putHelper(node.left, key, value); 
} 


} 
if (cmp > 0) { 
if (node.right == null) { 
node.right = new Node(key, value); 
SIZe++， 
return null; 
} else 1{ 
return putHelper(node.right, key, value); 
} 


V oldValue = node.value; 
node.value = value; 
return oldValue; 


第 一 个 参数 node 最 初 是 树 的 根 ， 但 是 每 次 我 们 执行 递归 调用 ， 它 指向 了 不 同 的 子 树 。 就 
像 get 一 样 ， 我 们 用 compareTo 方法 来 再 清楚 ， 跟 随 哪 一 条 树 的 路 径 。 如 果 cmp < 9 ， 我 们 
添加 的 键 小 于 node.key ， 那 么 我 们 要 走 左 子 树 。 有 两 种 情况 : 


e 如 果 左 子 树 为 室 ， 那 就 是 ， 如 果 node,left 是 null ， 我 们 已 经 到 达 树 的 底部 而 没有 找 
到 key 。 这 个 时 候 ， 我 们 知道 key 不 在 树 上 ， 我 们 知道 它 应 该 放 在 哪里 。 所 以 我 们 创建 
一 个 新 节点 ， 并 将 它 添加 为 node 的 左 子 树 。 

。 否则 我 们 进行 递归 调用 来 搜索 左 子 树 。 


如 果 cmp > 9 ， 我 们 添加 的 键 大 于 node.key ， 那 么 我 们 要 走 右 子 树 。 我 们 处 理 的 两 个 案例 与 
上 一 个 分 支 相同 。 最 后 ， 如 果 cmp == 9 ， 我 们 在 树 中 找到 了 键 ， 那 么 我 们 更 改 它 并 返回 上 昌 的 
值 。 


我 使 用 递归 编写 了 这 个 方法 ， 使 它 更 多 于 阅读 ， 但 它 可 以 直接 用 和 迭代 重 写 一 遍 ， 你 可 能 想 留 
作 练 习 。 


13.4 中 厅 遍 历 


我 要 求 你 编写 的 最 后 一 个 方法 是 keyset ， 它 返回 一 个 set ， 按 升序 包含 树 中 的 键 。 在 其 
他 Map 实现 中 ， keyset 返回 的 键 没 有 特定 的 顺序 ， 但 是 树 形 实现 的 一 个 功能 是 ， 对 键 进 行 简 
单 而 有 效 的 排序 。 所 以 我 们 应 该 利用 它 。 


这 是 我 的 答案 : 


纺 


public Set<K> keySet() { 
Set<K> set = new LinkedHashSet<Kk>(); 
addIinOrder(root, set); 
return set, 


} 

private>vord addIinorder(Node noder Set<K> Sset) { 
if (node == null) return; 
addInOrder(node.left, set); 
set.add(node. key); 
addInOrder(node.right, set); 

} 


在 keySet 中 ， 我 们 创建 一 个 LinkedHashset ， 这 是 一 个 set 实现 ， 使 元 素 保 持 有 序 (与 大 多 
数 其 他 set 实现 不 同 ) 。 然 后 我 们 调用 addInorder 来 遍历 树 。 


第 一 个 参数 node 最 初 是 树 的 根 ， 但 正如 你 的 期 望 ， 我 们 用 它 来 递归 地 遍历 
树 。 addInorder 对 树 执 行经 典 的 “中 序 遍 历 ”。 


如 果 node 是 null ， 这 意味 着 子 树 是 空 的 ， 所 以 我 们 返回 ， 而 不 向 set 添加 任何 东西 。 否 则 
我 们 : 


1， 按 顺序 遍历 左 子 树 。 
2.， 添加 node. key ° 
3， 按 顺序 遍历 右 子 树 。 


请 记 住 ，BST 的 特性 保证 左 子 树 中 的 所 有 节点 都 小 于 node.key ， 并 且 右 子 树 中 的 所 有 节点 都 
更 大 。 所 以 我 们 知道 ， node .key 已 按 正确 的 顺序 添加 。 


递归 地 应 用 相同 的 参数 ， 我 们 知道 左 子 树 中 的 元 素 是 有 序 的 ， 右 子 树 中 的 元 素 也 一 样 。 并 且 
边界 情况 是 正确 的 : 如 果子 树 为 室 ， 则 不 添加 任何 键 。 所 以 我 们 可 以 认为 ， 该 方法 以 正确 的 
顺序 添加 所 有 键 。 


因为 containsValue 方法 访 问 树 中 的 每 个 节 点 ， 所 以 所 需 时 间 与 n 成 正 比 。 


13.5 对 数 时 间 的 方法 


在 MyTreeMap 中 ， get 和 put 方法 所 需 时 间 与 树 的 高 度 h 成 正比 。 在 上 一 个 练习 中 ， 我 们 展 
示 了 如 果树 是 满 的 - 如 果树 的 每 一 层 都 包含 最 大 数量 的 节点 - 树 的 高 度 与 log n 成 横 辟 。 


我 也 说 了 ， get 和 put 是 对 数 时 间 的 ; 也 就 是 说 ， 他 们 的 所 需 时 间 与 logn 成 正比 。 但 是 对 
于 大 多 数 应 用 程序 ， 不 能 保证 树 是 满 的 。 一 般 来 说 ， 树 的 形状 取决 于 键 和 添加 顺序 。 


为 了 看 看 这 在 实践 中 是 怎么 回 事 ， 我 们 将 用 两 个 样本 数据 集 来 测试 我 们 的 实现 : 随机 字符 串 
的 列表 和 升序 的 时 间 履 列表。 


这 是 生成 随机 字符 串 的 代码 : 


Map<String, Integer> map = new MyTreeMap<String, Integer>(); 
fom (unt =0 <n 1+) 


String uuid = UUID.randomUUID().toString(); 
map.put(uuid, 0); 


UUID 是 java.util 中 的 类 ， 可 以 生成 随机 的 “通用 唯一 标识 符 "。UUID 对 于 各 种 应 用 是 有 用 
的 ， 但 在 这 个 例子 中 ， 我 们 利用 一 种 简单 的 方法 来 生成 随机 字符 串 。 


我 使 用 n=16384 来 运行 这 个 代码 ， 并 测量 了 最 后 的 树 的 运行 时 间 和 高 度 。 以 下 是 输出 : 


Time in milliseconds = 151 

Final size of MyTreeMap = 16384 

log base 2 of size of MyTreeMap = 14.0 
Final height of MyTreeMap = 33 


我 包含 了 “ MyTreeMap 大 小 的 2 为 底 的 对 数 "， 看 看 如 果 它 已 满 ， 树 将 是 多 高 。 结 果 表 明 ， 高 
度 为 14 的 完整 树 包含 16384 个 节点 。 

随机 字符 串 的 树 高 度 实际 为 33， 这 远大 于 理论 上 的 最 小 值 ， 但 不 是 太 差 。 要 查找 16,384 个 键 
中 的 一 个 ， 我 们 只 需要 进行 33 次 比较 。 与 线性 搜索 相 比 ， 速 度 快 了 近 509 倍 。 


这 种 性 能 通常 是 随机 字符 串 ， 或 其 他 不 按照 特定 顺序 添加 的 键 。 树 的 最 终 高 度 可 能 是 理论 最 
小 值 的 2-3 倍 ， 但 它 仍然 与 1og n 成 正比 ， 这 远 小 于 n 。 事 实 上 ， 随 着 n 的 增加 ， 1ogn 会 
慢 慢 增加 ， 在 实践 中 ， 可 能 很 难 将 对 数 时 间 与 常数 时 间 区 分 开 。 


然而 ， 二 又 搜索 树 并 不 总 是 表现 良好 。 让 我 们 看 看 ， 当 我 们 以 升序 添加 键 时 会 发 生 什 么 。 下 
面 是 一 个 示例 ， 以 微 秒 为 单位 测量 时 间 惟 ， 并 将 其 用 作 键 : 


MyTreeMap<String, Integer> map = new MyTreeMap<String, Integer>(); 


omant 0 isn To) 
String timestamp = Long.toString(System.nanoTime()); 
map.put(timestamp, 0); 


System.nanoTime 返回 一 个 long 类 型 的 整数 ， 表 示 以 微 秒 为 单位 的 启动 时 间 。 每 次 我 们 调用 
它 时 ， 我 们 得 到 一 个 更 大 的 数字 。 当 我 们 将 这 些 时 间 改 转换 为 字符 串 时 ， 它 们 按 字典 序 增 
加 。 


让 我 们 看 看 当 我 们 运行 它 时 会 发 生 什 么 


Time in milliseconds = 1158 

Final size of MyTreeMap = 16384 

Jog base 2 of size of MyTreeMap = 14.0 
Final height of MyTreeMap = 16384 


运行 时 间 是 以 前 的 时 间 的 七 们 多 。 时 间 更 长 。 如 果 你 想 知道 为 什么 ， 看 看 树 的 最 后 的 高 


度 : 16384 |! 





图 13.1 : 二 又 搜索 树 ， 平 衡 (左边 ) 和 不 平衡 (右边 ) 


如 果 你 思考 put 如 何 工 作 ， 你 可 以 弄 清楚 发 生 了 什么 。 每 次 添加 一 个 新 的 键 时 ， 它 都 大 于 树 
的 所 有 鱼 ， 所 以 我 们 总 是 选 拉 右 于 山 ， 并 且 总 是 关 新 弟 上 湛 加 为 ， 最 二 这 的 节点 的 右 于 池 
点 o 结果 是 一 个 “ 不 平衡 ” 的 树 要 只 包含 右 子 节 


这 种 树 的 高 度 正比 于 n ， 不 是 logn ， 所 以 get 和 put 的 性 能 是 线性 的 ， 不 是 对 数 的 。 


图 13.1 显示 了 平衡 和 不 平衡 树 的 示例 。 在 平衡 树 中 ， 高 度 为 4 ， 节 点 总 数 
为 2*4 - 1 = 15 。 在 节点 数 相同 的 不 平衡 树 中 ， 高 度 为 15 。 


13.6 目 平 衡 树 


这 个 问题 有 两 种 可 能 的 解决 方案 : 

你 可 以 避免 向 Map 按 顺序 添加 键 。 但 这 并 不 总 是 可 能 的 。 你 可 以 制作 一 棵 树 ， 如 果 碰巧 按 顺 
序 处 理 键 ， 那 么 它 会 更 好 地 处 理 键 。 

第 二 个 解决 方案 是 更 好 的 ， 有 几 种 方法 可 以 做 到 。 最 常见 的 是 修改 put ， 以 便 它 检测 树 何 时 
AAA 
平衡 树 包括 AVL 树 (“AVL” 是 发 明 者 的 缩写 ) ， 以 及 红 黑 树 ， 这 是 Java TreeMap 所 使 用 的 。 


在 我 们 的 示例 代码 中 ， 如 果 我 们 用 Java 的 MyTreeMap 替换 ， 随 机 字符 串 和 时 间 惟 的 运行 时 间 
大 致 相同 。 实 际 上 ， 时 间 稚 运行 速度 更 快 ， 即 使 它们 有 序 ， 可 能 是 因为 它们 花费 的 时 间 较 


少 。 


和 


总 而 言 之 ， 二 又 搜索 树 可 以 以 对 数 时 间 实 现 get 和 put ， 但 是 只 Lr 
序 添加 键 。 自 平衡 树 通 过 每 次 添加 新 键 时 ， 进 行 一 些 额 外 的 工作 来 避 


你 可 以 在 http://thinkdast.com/balancing 上 阅读 自 平衡 树 的 更 多 信息 。 


13.7 更 多 练习 


退 使 得 树 足够 平衡 的 顺 


这 个 问题 。 


在 上 一 个 练习 中 ， 0 remove ， 但 你 可 能 需要 尝试 。 如 果 从 树 中 央 删 除 节点 ， 则 必须 
重新 排列 剩余 的 节点 ， 来 恢复 BST 的 特性 。 你 可 以 自己 弄 清楚 如 何 实 现 ， 或 者 你 可 以 阅读 


a bstdel 上 的 说 明 。 


删除 一 个 节点 并 重新 平衡 一 个 树 是 类 似 的 操作 : 如 果 你 做 这 个 练习 ， 你 将 更 好 地 了 解 自 平衡 


树 如 何 工作 。 


第 十 四 章 持久 化 


原文 : Chapter 14 Persistence 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 
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在 接 下 来 的 几 个 练习 中 ， 我 们 将 返回 到 网 页 搜索 引擎 的 构建 。 为 了 回顾 ， 搜 索引 擎 的 组 件 


旦 。 


不 : 


e。 抓 取 : 我 们 需要 一 个 程序 ， 可 以 下 载 一 个 网 页 ， 解 析 它 ， 并 提取 文本 和 任何 其 他 页 面 的 
链接 。 

e 索引 :我 们 需要 一 个 索引 ， 可 以 查找 检索 项 并 找到 包含 它 的 页 面 。 

e 检索 : 我 们 需要 一 种 方法 ， 从 索引 中 收集 结果 ， 并 识别 与 检索 项 最 相关 的 页 面 。 
如 果 你 做 了 练习 8.3， 你 使 用 Java 映射 实现 了 一 个 索引 。 在 本 练习 中 ， 我 们 将 重新 审视 索引 
器 ， 并 创建 一 个 新 版 本 ， 将 结果 存储 在 数据 库 中 。 
如 果 你 做 了 练习 7.4， 你 创建 了 一 个 疏 虫 ， 它 跟踪 它 找 到 的 第 一 个 链接 。 在 下 一 个 练习 中 ， 我 
们 将 制作 一 个 更 通用 的 版 本 ， 将 其 查找 到 的 每 个 链接 存储 在 队列 中 ， 并 对 其 进行 排序 。 
然后 ， 最 后 ， 你 将 处 理 检索 问题 。 
在 这 些 练习 中 ， 我 提供 较 少 的 起 始 代码 ， 你 将 做 出 更 多 的 设计 决策 。 这 些 练习 也 更 加 开放 。 
我 会 提出 一 些 最 低 限 度 的 目标 ， 你 应 该 尝试 实现 它们 ， 但 如 果 你 想 挑战 自己 ， 有 很 多 方法 可 
以 让 你 更 深入 。 


现在 ， 让 我 们 开始 编写 一 个 新 版 本 的 索引 器 。 


14.1 Redis 


索引 器 的 之 前 版 本 ， 将 索引 存储 在 两 个 数据 结构 中 * TermCounter 将 检索 词 映射 为 网 页 上 显示 
的 次 数 ， 以 及 Index 将 检索 词 映射 为 出 现 的 页 面 集合 。 

这 些 数据 结构 存储 在 正在 运行 的 Java 程序 的 内 存 中 ， 这 意味 着 当 程 序 停止 运行 时 ， 索 引 会 丢 
失 。 仅 在 运行 程序 的 内 存 中 存储 的 数据 称 为 " 易 失 的 ”， 因 为 程序 结束 时 会 消失 。 

在 创建 它 的 程序 结束 后 ， 仍 然 存 在 的 数据 称 为 "持久 的 "。 通 常 ， 存 储 在 文件 系统 中 的 文件 ， 以 
及 存储 在 数据 库 中 的 数据 是 持久 的 。 


使 数据 持久 化 的 一 种 简单 方法 是 ， 将 其 存储 在 文件 中 。 在 程序 结束 之 前 ， 它 可 以 将 其 数据 结 
构 转换 为 JSON 格式 (http://thinkdast.com/json) ， 然 后 将 它们 写 入 文件 。 当 它 再 次 启动 
时 ， 它 可 以 读 取 文件 并 重建 数据 结构 。 


但 这 个 解决 方案 有 几 个 问题 : 


。 读 取 和 和 写 入 大 型 数据 结构 (如 Web 索引 ) 会 很 慢 。 

。 整个 数据 结构 可 能 不 适合 单个 运行 程序 的 内 存 。 

和 如 果 程 序 意 外 结束 (例如 9 由 于 断 电 ) 9 风 ] 自 程序 上 次 启 动 以 来 所 做 的 任何 更 改 都 将 丢 
失 。 


一 个 更 好 的 选择 是 提供 持久 存储 的 数据 库 ， 并 且 能 够 读 取 和 写 入 数据 库 的 部 分 ， 而 无 需 读 取 
和 写 入 整个 数据 。 


有 多 种 数据 库 管 理 系统 (DBMS ) 提供 不 同 的 功能 。 你 可 以 在 http:Wthinkdast.com/database 
阅读 概述 。 


我 为 这 个 练习 推荐 的 数据 库 是 Redis， 它 提供 了 类 似 于 Java 数据 结构 的 持久 数据 结构 。 有 具体 
来 说 ， 它 提供 : 


字符 串 列 表 ， 与 Java 的 List 类 似 。 哈 希 ， 类 似 于 Java 的 Map 。 字符 串 集 合 ， 类 似 于 
Java 的 set 。 


译 者 注 : 另外 还 有 类 似 于 Java 的 LinkedHashset 的 有 序 集合 。 


Redis 是 一 个 “ 键 值 数据 库 ”， 这 意味 着 它 包 含 的 数据 结构 ( 值 ) 由 唯一 的 字符 串 ( 键 ) 标识 。 
Redis 中 的 键 与 Java 中 的 引用 相同 : 它 标识 一 个 对 象 。 我 们 稍 后 会 看 到 一 些 例 子 。 


14.2 Redis 客户 端 和 服务 端 


为 远程 服务 ; 其 实 它 的 名 字 代 表 “REmote Dlctionary Server”( 远 程 字 典 服 

典 其 实 就 是 映射 ) 。 为 了 使 用 Redis ， 0 Redis 服务 器 ， 然 后 使 用 
Redis 客户 端 连接 到 Redis 服务 器 。 有 很 多 方法 可 用 于 设置 服务 器 ， 也 有 许多 你 可 以 使 用 的 
客户 端 。 对 于 这 个 练习 ， 我 建议 : 


不 要 自己 安装 和 运行 服务 器 ， 请 考虑 使 用 像 RedisToGo (http://thinkdast.com/redistogo) 这 
样 的 服务 ， i Redis。 他 们 提供 了 一 个 免费 的 计划 (配置 ) ， 有 足够 的 资源 用 于 
练习 。 对 于 客户 端 ， 我 推荐 Jedis， 它 是 一 个 Java 库 ， 提 供 了 使 用 Redis 的 类 和 方法 。 
以 下 是 更 详细 的 说 明 ， 以 帮助 你 开始 使 用 : 
。 在 RedisToGo 上 创建 一 个 帐号 ， 网 址 为 http://thinkdast.com/redissign ， 并 选择 所 需 的 
计划 〈 可 能 是 免费 的 起 始 计划 ) 。 
e 创建 一 个 "实例 ”， 它 是 运行 Redis 服务 器 的 虚拟 机 。 如 果 你 单 击 “ 实 例 ” 选 项 卡 ， 你 将 看 到 
你 的 新 实例 ， 由 主机 名 和 端口 号 标识 。 例 如 ， 我 有 一 个 名 为 dory-16534 的 实例 。 


e。 单 击 实例 名 称 来 访问 配置 页 面 。 记 下 页 面 顶 部 附近 的 网 址 ， 如 下 所 示 : 


redis://redistogo:1234567feedfacebeefaie1234567@dory.redistogo.com:10534 


这 个 URL 包含 服务 器 的 主机 名 称 dory.redistogo.com ， 端 口号 16534 和 连接 到 服务 器 所 需 的 
密码 ， 它 是 中 间 较 长 的 字母 数字 的 字符 串 。 你 将 需要 此 信息 进行 下 一 步 。 


ha 
癌 


14.3 制作 基于 Redis 的 索引 


在 本 书 的 仓库 中 ， 你 将 找到 此 练习 的 源 文 件 : 


e JedisMaker.java 包含 连接 到 Redis 服务 器 并 运行 几 个 Jedis 方法 的 示例 代码 。 

e@ JedisIndex.java 包含 此 练习 的 起 始 代 码 。 

© JedisIndexTest,java 包含 JedisIndex 的 测试 代码 。 

e WikiFetcher.java 包含 我 们 在 以 前 的 练习 中 看 到 的 代码 ， 用 于 阅读 网 页 并 使 用 jsoup 进 


你 还 将 需要 这 些 文件 ， 你 在 以 前 的 练习 中 碰 到 过 


Index.java 使 用 Java 数据 结构 实现 索引 。 Termcounter.java 表示 从 检索 项 到 其 频率 的 映 
射 。 WikiNodeIterable,java 近代 jsoup 生成 的 DOM 树 中 的 节 点 


如 果 你 有 这 些 文件 的 有 效 版 本 ， 你 可 以 使 用 它们 进行 此 练习 。 如 果 你 没有 进行 以 前 的 练习 ， 
或 者 你 对 你 的 解决 方案 毫 无 信心 ， 则 可 以 从 solutions 文件 夹 复制 我 的 解决 方案 。 


第 一 步 是 使 用 Jedis 连接 到 你 Redis 服务 器 。 JedisMaker.java 展示 了 如 何 实现 。 它 从 文件 
读 取 你 的 Redis 服务 器 的 信息 ， 连 接 到 它 并 使 用 你 的 密码 登录 ， 然 后 返回 一 个 可 用 于 执行 
Redis 操作 的 Jedis 对 象 。 

如 果 你 打开 JedisMaker.java ， 你 应 该 看 到 JedisMaker 类 ， 它 是 一 个 帮助 类 ， 它 提供 静态 方 
法 make ， 它 创建 一 个 Jedis 对 象 。 一 旦 该 对 象 认证 完毕 ， 你 可 以 使 用 它 来 与 你 的 Redis 数据 
库 进行 通信 。 

JedisMaker 从 名 为 redis_url.txt 的 文件 读 取 你 的 Redis 服务 器 信息 ， 你 应 该 放 在 目 


录 src/resources 中 。 


@ 使 用 文本 编辑 辑 器 他 创建 并 编辑 ThinkDataStructures/code/src/resources/redis url.txt ° 
e 站 让 及 全 二 URL。 如 果 你 使 用 的 是 RedisToGo， 则 URL 将 如 下 所 示 : 


redis://redistogo:1234567feedfacebeefaie1234567@dory.redistogo.com:10534 


因为 此 文件 包含 你 的 Redis 服务 器 的 密码 ， 你 不 应 将 此 文件 放 在 公共 仓库 中 。 为 了 帮助 你 避 
免 意外 避免 这 种 情 况 ， 仓 库 和 包含 .gitignore 文件 ， 使 文件 难以 (但 不 是 不 可 能 ) 放 入 你 的 仓 
库 。 


现在 运行 ant build 来 编译 源 文件 ， 以 及 ant JedisMaker 来 运行 main 中 的 示例 代码 : 


public static void main(String[] args) { 
Jedis jedis = make(); 
/SE 


jedis,.set("mykey", "myvalue"); 
String value = jedis.get("mykey"); 


System.out.println("Got value: " + value); 

Se 

Jedis.Ssaddi( myset ”HH elementT elementc2 elemente 
System.out.println("element2 is member: "+ 


jedis.sismember("myset", "element2")); 


WS 

Jedrsenpusmemylast elenmentT element2 ,element3.), 

System.out,println("element at index 1: "+ 
jedis.lindex("mylist", 1)); 


// Hash 
jedis.hset("myhash", "wordi", Integer.toString(2)); 
jedis.hincrBy("myhash", "word2", 1); 


System.out.println("frequency of wordi: " + 
jedis.hget("myhash", "word1")); 
System.out.println("frequency of word1: " + 


jedis.hget("myhash", "word2")); 


jedis.close( ); 


这 个 示例 展示 了 数据 类 型 和 方法 ， 你 在 这 个 练习 中 最 可 能 使 用 它们 。 当 你 运行 它 时 ， 输 出 应 


该 是 : 


Got value: myvalue 

element2 is member: true 
element at index 1: element2 
frequency of wordi: 2 
frequency of word2: 1 


下 一 节 中 我 会 解释 代码 的 工作 原理 。 


14.4 Redis 数据 类 型 


Redis 基本 上 是 一 个 从 键 到 值 的 映射 ， 键 是 字符 串 ， 值 可 以 是 字符 串 ， 也 可 以 是 几 种 数据 类 型 
之 一 。 最 基本 的 Redis 数据 类 型 是 字符 串 。 我 将 用 斜体 书写 Redis 类 型 ， 来 区 别 于 Java 类 


型 。 


为 了 向 数据 库 添加 一 个 字符 jedis.set ， 类 似 于 Map.put ; 参数 是 新 的 键 和 相应 的 
值 。 为 了 查找 一 个 键 并 获取 其 值 ， 请 使 用 jedis.get 


jedis.set("mykey", "myvalue"); 
String value = jedis.get("mykey"); 


在 这 个 例子 中 ， 键 是 "mykey" ， 值 是 "myvalue" 。 


Redis 提供 了 一 个 集合 结构 ， 类 似 于 Java 的 set<string> 。 为 了 向 Redis 集合 添加 元 素 ， 你 
可 以 选择 一 个 键 来 标识 集合 ， 然 后 使 用 jedis.sadd 


Jedis.sadd("myset", "elementi", "element2", "element3"); 
boolean flag = jedis.sismember("myset", "element2"); 


你 不 必用 单独 的 步骤 来 创建 集合 。 如 果 不 存在 ，Redis 会 创建 它 。 在 这 种 情况 下 ， 它 会 创建 一 
个 名 为 myset 的 集合 ， 包 含 三 个 元 素 。 
jedis.sismember 方法 检查 元 素 是 否 在 一 个 集合 中 。 添 加 元 素 和 检查 成 员 是 常数 时 间 的 操作 。 


Redis 还 提供 了 一 个 列表 结构 ， 类 似 于 Java 的 List<string> 。 jedis.rpush 方法 在 末尾 ( 右 
端 ) 向 列表 添加 元 素 : 


yedrs rpushO myLlist elementl element2 element3), 
String element = jedis.lindex("mylist", 1); 


不 必 在 开始 添加 元 素 之 前 创建 结构 。 此 示例 创建 了 一 个 名 为 mylist 的 列表 ， 其 中 包 


样 ， 你 
三 个 元 素 。 


号 加 


jedis.lindex 方法 使 用 整数 索引 ， 并 返回 列表 中 指定 的 元 素 。 添 加 和 访问 元 素 是 常数 时 间 的 
操作 。 


最 后 ，Redis 提供 了 一 个 哈 希 结构 ， 类 似 于 Java 的 Map<string，String> 。 jedis.hset 方法 
为 哈 希 表 添 加 新 条 目 : 


jedis.hset("myhash", "wordi", Integer.toString(2)); 
String value = jedis.hget("myhash", "word1"); 


此 示例 创建 一 个 名 为 的 myhash 哈 希 表 ， 其 中 包含 一 个 条 目 ， 该 条 目 从 将 键 word1 映射 到 
信和 2 。 


键 和 值 都 是 字符 事 ， 所 以 如 果 我 们 要 存储 Integer ， 在 我 们 调用 hset 之 前 ， 我 们 必须 将 它 转 
换 为 string 。 当 我 们 使 用 hget 查找 值 时 ， 结 果 是 string ， 所 以 我 们 可 能 必须 将 其 转换 


回 Integer 。 


使 用 Redis 的 哈 希 表 可 能 会 令 人 困惑 ， ds 我 们 想 ls ， 然 后 
用 另 一 个 键 标识 哈 希 表 中 的 值 。 在 Redis 的 上 下 文中 ， 第 二 个 键 被 称 为 "字段 "， 这 可 能 有 助 于 
保持 清晰 。 所 以 类 似 myhash 的 “ 键 " 标 se ， 然 后 类 似 word1 和 
个 哈 希 表 中 的 值 。 


对 于 许多 应 用 程序 ，Redis 哈 希 表 中 的 值 是 整数 ， 所 以 Redis 提供 了 一 些 特 殊 的 方法 ， 比 
如 hincrby 将 值 作为 数字 来 处 理 : 


jedis.hincrBy("myhash", "word2", 1); 


这 个 方法 访问 myhash ， 获取 word2 的 当前 值 (如 果 不 存在 则 为 0 ) , 将 其 递增 dg? 并 将 结 
果 写 回 哈 希 表 。 


在 哈 希 表 中 ， 设 置 ， 获 取 和 递增 条 目 是 常数 时 间 的 操作 。 


你 可 以 在 http://thinkdast.com/redistypes 上 阅读 Redis 数据 类 型 的 更 多 信息 。 


14.5 练习 11 


这 个 时 候 ， 你 可 以 获取 一 些 信 息 ， 你 需要 使 用 它们 来 创建 搜索 引擎 的 索引 ， 它 将 结果 储存 在 
Redis 数据 库 中 。 


现在 运行 ant JedisIndexTest 。 它 应 该 失败 ， 因 为 你 有 一 些 工 作 要 做 ! 
JedisIndexTest 测试 了 这 些 方法 : 


e JedisIndex ， 这 是 构造 器 ， 它 接受 Jedis 对 象 作 为 参数 。 

e indexPage ， 它 将 一 个 网 页 添加 到 索引 中 ; 它 需 要 一 个 stringURL 和 一 
个 jsoup Elements 对 象 ， 该 对 象 包含 应 该 建立 索引 的 页 面 元 素 。 

@ getCounts ， 它 接收 检索 词 四 并 返回 Map<String, Integer> ， 包含 检索 词 到 它 在 页 面 上 的 
出 现 次 数 的 映射 。 


以 下 是 如 何 使 用 这 些 方法 的 示例 : 


WikiFetcher wf = new WikiFetcher()， 
String url1 = 

"http://en.wikipedia.org/wiki/Java_ (programming_language)"; 
Elements paragraphs = wf.readwikipedia(ur1l1); 


Jedis jedis = JedisMaker.make(); 

JedisIndex index = new JedisIndex(jedis); 
index.indexPage(url1, paragraphs); 

Map<String, Integer> map = index.getCounts("the"); 


如 果 我 们 在 结果 map 中 查看 url1 ， 我 们 应 该 得 到 339 ， 这 是 Java 维基 百科 页 面 ( 即 我 们 保 
存 的 版 本 ) 中 ， the 出 现 的 次 数 。 


如 果 我 们 再 次 索引 相同 的 页 面 ， 新 的 结果 将 替换 四 的 结果 。 


将 数据 结构 从 Java 翻译 成 Redis 的 一 个 建议 是 : 记 住 Redis 数据 库 中 的 每 个 对 象 都 以 唯一 的 
键 标识 ， 它 是 一 个 字符 串 。 如 果 同 一 数据 库 中 有 两 种 对 象 ， 则 可 能 需要 向 键 添加 前 组 来 区 分 
它们 。 例 如 ， 在 我 们 的 解决 方案 中 ， 我 们 有 两 种 对 象 : 


e。 我 们 将 URLSet 定义 为 Redis 集合 ， 它 包含 URL ， URL 又 包含 给 定 检 索 词 。 每 
个 URLSet 的 键 的 起 始 是 "URLSet:" ， 所 以 要 获取 和 包含 单词 the 的 URL， 我 们 使 用 


键 "URLset:the" 来 访问 该 集合 。 

。 我 们 将 Termcounter 定义 为 Redis 哈 硕 表 ， 将 出 现在 页 面 上 的 每 个 检索 词 映射 到 它 的 出 
现 次 数 。 Termcounter 每 个 键 的 开头 都 以 "Termcounter:" 开头 ， 以 我 们 正在 查找 的 页 面 
的 URL 结尾 。 


在 我 的 实现 中 ， 每 个 检索 词 都 有 一 个 URLSet ， 每 个 索引 页 面 都 有 一 个 Termcounter 。 我 提供 
两 个 辅助 方法 ，urlsetkey 和 termcounterKkey 来 组 装 这 些 键 。 


14.6 更 多 建议 (如 果 你 需要 的 话 ) 


到 了 这 里 2 你 拥有 了 完成 练习 所 需 的 所 有 信息 » 所 以 如 果 准 备 好 了 就 可 以 开始 了 但 是 我 有 
几 个 建议 ， 你 可 能 想 先 阅读 它 : 


。 对 于 这 个 练习 ， 我 提供 的 指导 比 以 前 的 练习 少 。 你 必须 做 出 一 些 设计 决策 ; 特别 是 ， 你 

Tr 青 楚 如 何 将 问题 。 I 生 测 试 的 部 分 ， 然 后 将 这 些 部 分 组 合成 一 

完整 的 解决 方案 。 如 果 你 党 写 出 整个 项 目 ， 而 不 测试 较 小 的 部 分 ， 调 试 可 能 需 
en 间 。 

。 使 用 持久 性 数据 的 挑战 之 一 是 它 是 持久 的 。 存 储 在 数据 库 中 的 结构 可 能 会 在 每 次 运行 程 
序 时 发 生 更 改 。 如 果 你 弄 乱 了 数据 库 ， 你 将 不 得 不 修复 它 或 重新 开始 ， 然 后 才能 继续 。 
为 了 帮助 你 控制 住 自己 ， 我 提供 的 方法 
叫 deleteURLSets ， deleteTermcounters 和 deleteAllkeys ， 你 可 以 用 它 来 清理 数据 库 ， 
并 重新 开始 。 你 也 可 以 使 用 printIndex 来 打印 索引 的 内 容 。 

。 每 次 调用 Jedis 的 方法 时 ， 你 的 客户 端 会 向 服务 器 发 送 一 条 消息 ， 然 后 服务 器 执行 你 请 求 
的 操作 并 发 回 消息 。 如 果 执 行 许多 小 操作 ， 可 能 需要 很 长 时 间 。 你 可 以 通过 将 一 系列 操 


作 分 组 为 一 个 Transaction ， 来 提高 性 能 。 


例如 ， 这 是 一 个 简单 的 deleteAllkeys 版 本 : 


public void deleteAllkeys() { 
Set<String> keys = jedis.keys("*"); 
for (String key: keys) { 
jedis.dell(key); 
} 


每 次 调用 del 时 » 都 需要 从 客户 端 党 到 月 服务 器 器 的 双向 通信 2 如 果 索 引 包含 多 个 页 面 3 则 该 方法 
需要 很 长 时 间 来 执行 。 我 们 可 以 使 用 Transaction 对 象 来 加 速 


public void deleteAllkeys() { 
Set<String> keys = = jedis.keys("*"); 
Transaction t = jedis.multi(); 
for (String key: keys) { 
t.del(key); 


t.exec(); 


jedis.multi 返回 一 个 Transaction 对 象 ， 它 提供 Jedis 对 象 的 所 有 方法 。 但 是 当 你 调 
用 Transaction 的 方法 时 它 不 会 立即 执行 该 操作 ， 并 且 不 与 服务 器 3 通信 。 。 在 你 调用 exec 之 
前 ， 它 会 保存 一 批 操 作 。 然 后 它 将 所 有 保存 的 操作 同时 发 送 到 服务 器 ， 这 通常 要 快 得 多 。 


14.7 几 个 设计 提示 
现在 你 监 的 拥有 了 你 需要 的 所 有 信息 ; 你 应 该 开始 完成 练习 。 但 是 如 果 你 卡 住 了 ， 或 者 如 果 
你 站 的 不 知道 如 何 开始 ， 你 可 以 再 来 一 些 提示 。 


在 运行 测试 代码 之 前 ， 不 要 阅读 以 下 内 容 ， 尝 试 一 些 基 本 的 Redis 命令 ， 并 
在 JedisIndex. java 中 编写 几 个 方法 。 


好 的 ， 如 果 你 丰 的 卡 住 了 ， 这 里 有 一 些 你 可 能 想 要 处 理 的 方法 : 


A 

* 向 检索 词 相 关 的 集合 中 添加 URL 

7 

public void add(String term, TermCounter tc) 人 
pe 

* 查找 检索 词 并 返回 URL 集合 

wh 

public Set<String> getURLs(Stringl term) {} 

pA 

* 返回 检索 词 出 现在 给 定 URL 中 的 次 数 

Eh 

public Integer getCount(String url, String term) 人 0 
pe 

* 将 TermCounter 的 内 容 存 入 Redis 

BA 


public List<object> pushTermCounterToRedis(TermCounter tc) 全 


这 些 是 我 在 解决 方案 中 使 用 的 方法 ， 但 它们 绝对 不 是 将 项 目 分 解 的 唯一 方法 。 所 以 如 果 他 们 
有 帮助 ， 请 接受 这 些 建议 ， ee ， 请 忽略 它们 。 


对 于 每 种 方法 ， 请 考虑 首先 编写 测试 。 当 你 型 清楚 如 何 测试 一 个 方法 时 ， 你 经 常会 了 解 如 何 
编写 它 


祝 你 好 运 ! 


第 十 五 章 疏 取 维基 百科 


原文 : Chapter 15 Crawling Wikipedia 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 

自豪 地 采用 谷歌 翻译 


在 本 章 中 ， 我 展示 了 上 一 个 练习 的 解决 方案 ， 并 分 析 了 Web 索引 算法 的 性 能 。 然 后 我 们 构建 
一 个 简单 的 Web 寂 贝 。 


15.1 基于 Redis 的 索引 器 


在 我 的 解决 方案 中 ， 我 们 在 Redis 中 存储 两 种 结构 : 


e@ 对 于 每 个 检索 词 ， 我 们 有 一 个 URLSet ， 它 是 一 个 Redis 集合 ， 包 含 检 索 词 的 URL 。 
e@ 对 于 每 个 网 址 ， 我 们 有 一 个 Termcounter ， 这 是 一 个 Redis 哈 希 表 ， 将 每 个 检索 词 映 射 
到 它 出 现 的 次 数 。 


我 们 在 上 一 章 讨论 了 这 些 数据 类 型 。 你 还 可 以 在 http://thinkdast.com/redistypes 上 阅读 Redis 
set 和 Hash ` 的 信息 


在 JedisIndex 中 ， 我 提供 了 一 个 方法 ， 它 可 以 接受 一 个 检索 词 并 返回 Redis 中 它 
的 URLSet 的 键 : 


praivatestringunrlsetKkey(strIngiterm) 4{ 
rieturn URESeG + term, 
} 


以 及 一 个 方法 ， 接 受 URL 并 返回 Redis 中 它 的 Termcounter 的 键 。 


private String termCounterKey(String url) { 
return "TermCounter:" + url; 
} 


这 里 是 indexPage 的 实现 。 


public void indexPage(String url, Elements paragraphs) { 
System.out.println("Indexing ”+ url); 


// make a TermCounter and count the terms in the paragraphs 


TermCounter tc = new TermCounter(ur1l); 
tc.processElements(paragraphs); 


// push the contents of the TermCounter to Redis 
pushTermCounterToRedis(tc); 


为 了 索引 页 面 ， 我 们 : 


@ 为 页 人 面 内 容 创 | 建 一 个 Java 的 Termcounter ， 使 用 上 一 个 练习 中 的 代码 。 


e 将 Termcounter 的 内 容 推送 到 Redis。 


以 下 是 将 Termcounter 的 内 容 推 送 到 Redis 的 新 代码 : 


public List<0Object> pushTermCounterToRedis(TermCounter tc) { 


Transaction t = jedis.multi(); 


String url = tc.getLabel(); 
String hashname = termCounterkey(url1); 


// if this page has already been indexed, delete the old hash 


t.del(hashname ) ; 


// for each term，add an entry in the TermCounter and a new 


Anmnemperiof the Vandex 

for (String term: tc.keySet()) { 
Integer count = tc.get(term); 
t.hset(hashname, term, count.toString()); 
t.sadd(urlSetkey(term), url); 

} 

List<Object> res = t.exec(); 

eurngaes: 


该 方法 使 用 Transaction 来 收集 操作 ， 并 将 它们 一 次 性 发 送 到 服 


作 要 快 得 多 


它 遍 历 Termcounter 中 的 检索 词 。 对 于 每 一 个 ， 它 : 


@ 在 Redis 上 了 寻找 或 者 创建 TermCounter ， 然后 为 新 的 检索 词 添 加 字段 六 


e 在 Redis 上 寻找 或 创建 URLSet ， 然 后 添加 当前 的 URL。 
如 果 页 面 已 被 索引 ， 则 Termcounter 在 推送 新 内 容 之 前 删除 日 页 面 
新 的 页 面 的 索引 就 是 这 样 。 


练习 的 第 二 部 分 
一 个 映射 。 这 是 我 的 解决 方案 : 


沪 


发 送 一 系列 较 小 操 


要 求 你 编写 getcounts ， 它 需要 一 个 检索 词 ， 并 从 该 词 出 现 的 每 个 网 址 返回 


public Map<String, Integer> getCounts(String term) { 
Map<String, Integer> map = new HashMap<String, Integer>(); 
Set<String> urls = getURLs(term); 
for (String url: urls) { 
Integer count = getCount(url, term); 
map.put(url, count); 


return map; 


此 方法 使 用 两 种 辅助 方法 : 


egetURLs 接受 检索 词 并 返回 该 字 词 出 现 的 网 址 集合 。 
e getcount 接受 URL 和 检索 词 ， 并 返回 该 检索 词 在 给 定 URL 处 显示 的 次 数 。 


以 下 是 实现 : 


public Set<Sstring> getURLEsS(String term 
Set<String> set = jedis.smembers(ur1lSetKey(term) ) ; 
eeunEESeE， 


} 
public Integqer getCount(Strangl url String term) ee 
String redisKkey = termCounterkey(url1); 


String count = jedis.hget(rediskey, term); 
return new Integer(count); 


由 于 我 们 设计 索引 的 方式 ， 这 些 方法 简单 而 高 效 。 


15.2 查找 的 分 析 


假设 我 们 索引 了 N 个 页 面 ， 并 发 现 了 M 个 唯一 的 检索 词 。 检 索 词 的 查询 需要 多 长 时 间 ? 在 继 
续 之 前 ， 先 考虑 一 下 你 的 答案 。 


要 查找 一 个 检索 词 ， 我 们 调用 getcounts ， 其 中 : 


。 创建 映射 。 
e 调用 getuRLs 来 获取 URL 的 集合 。 
e。 对 于 集合 中 的 每 个 URL， 调 用 getcount 并 将 条 目 添 加 到 HashMap 。 


getURLs 所 需 时 间 与 包含 检索 词 的 网 址 数 成 正比 。 对 于 罕见 的 检索 词 ， 这 可 能 是 一 个 很 小 的 
数字 ， 但 是 对 于 常见 检索 词 ， 它 可 能 和 NN 一样 大 。 


在 循环 中 ， 我 们 调用 了 getcount ， 它 在 Redis 上 寻找 Termcounter ， 查 找 一 个 检索 词 ， 并 
向 HashMap 添加 一 个 条 目 。 那 些 都 是 常数 时 间 的 操作 ， 所 以 在 最 坏 的 情况 下 ， getcounts 的 
整体 复杂 度 是 0(N) 。 然 而 实际 上 ， 运 行 时 间 正 比 于 包含 检索 词 的 页 面 数量 ， 通 常 比 N 小 得 


多 。 


这 个 算法 根据 复杂 性 是 有 效 的 ， 但 是 它 非常 慢 ， 因 为 它 向 Redis 发 送 了 许多 较 小 的 操作 。 你 
可 以 使 用 Transaction 来 加 快速 度 ee ， 或 者 你 可 以 在 RedisIndex,java 中 
查看 我 的 解决 方案 。 


15.3 索引 的 分 析 


使 用 我 们 设计 的 数据 结构 ， 页 面 的 索引 需要 多 长 时 间 ? 再 次 考虑 你 的 答案 ， 然 后 再 继续 。 


为 了 索引 页 面 ， 我 们 遍历 其 DOM 树 ， 找 到 所 有 TextNode 对 象 ， 并 将 字符 串 拆 分 成 检索 词 。 
这 一 切 都 与 页 面 上 的 单词 数 成 正比 。 


对 于 每 个 检索 词 ， 我 们 在 HashMap 中 增加 一 个 计数 器 ， 这 是 一 个 常数 时 间 的 操作 。 所 以 创 
建 Termcounter 的 所 需 时 间 与 页 面 上 的 单词 数 成 正比 。 


将 Termcounter 推送 到 Redis ， 需 要 删除 Termcounter ， 对 于 唯一 检索 词 的 数量 是 线性 的 。 那 
么 对 于 每 个 检索 词 ， 我 们 必须 : 


@ 向 URLSet 添加 元 素 ， 并 且 
e@ 向 Redis Termcounter 添加 元 素 。 


这 两 个 都 是 常数 时 间 的 操作 ， 所 以 推送 Termcounter 的 总 时 间 对 于 唯一 检索 词 的 数量 是 线性 
的 。 


总 之 ， Termcounter 的 创建 与 页 面 上 的 单词 数 成 正比 。 向 Redis 推送 Termcounter 与 唯一 检索 
词 的 数量 成 正比 。 

由 于 页 面 上 的 单词 数量 通常 超过 唯一 检索 词 的 数量 ， 因 此 整体 复杂 度 与 页 面 上 的 单词 数 成 正 
比 。 理 论 上 ， 一 个 页 面 可 能 包含 索引 中 的 所 有 检索 词 ， 因 此 最 坏 的 情况 是 0(M) ， 但 实际 上 我 
们 并 不 期 待 看 到 更 糟糕 的 情况 。 


这 个 分 析 提 出 了 一 种 提高 效率 的 方法 : 我 们 应 该 避免 索引 很 常见 的 词语 。 首 先 ， 他 们 占用 了 
大 量 的 时 间 和 空间 ， 因 为 它们 出 现在 几乎 每 一 个 URLset 和 Termcounter 中 。 此 外 ， 它 们 不 是 
很 有 用 ， 因 为 它们 不 能 帮助 识别 相关 页 面 。 


大 多 数 搜索 引擎 避免 索引 常用 单词 ， 这 在 本 文中 称 为 停止 词 
(http://thinkdast.com/stopword) 。 


15.4 图 的 遍历 


如 果 你 在 第 七 章 中 完成 了 "到 3 a 面 ， 找 到 
第 一 个 链接 ， 使 用 链接 加 载 下 一 页 ， 然 后 重复 。 这 个 程序 是 一 种 专用 的 候 虫 ， 但 是 当 人 们 
说 “网络 疏 下 "时 ， 他 们 通常 意味 着 一 个 程序 : 


加 载 起 始 页 面 并 对 内 容 进 行 索引 ， 查 找 页 面 上 的 所 有 链接 ， 并 将 链接 的 URL 添加 到 集合 中 
通过 收集 ， 加 载 和 索引 页 面 ， 以 及 添加 新 的 URL， 来 按照 它 的 方式 工作 。 如 果 它 找到 已 经 被 
索引 的 URL， 会 跳 过 它 。 

你 可 以 将 Web 视 为 图 ， 其 中 每 个 页 面 都 是 一 个 节点 ， 每 个 链接 都 是 从 一 个 节点 到 另 一 个 节点 
的 有 向 边 。 如 果 你 不 熟悉 图 ， 可 以 阅读 http://thinkdast.com/graph 。 


从 源 节点 开始 ， 伶 虫 程序 遍历 该 图 ， 访 问 每 个 可 达 节 点 一 次 。 
我 们 用 于 存储 URL 的 集合 决定 了 仆 虫 程序 执行 哪 种 遍历 


e。 如 果 它 是 先进 先 出 (FIFO) 的 队列 ， 则 卜 虫 程序 将 执行 广度 优先 遍历 。 

e。 如 果 它 是 后 进 先 出 (LIFO) 的 栈 ， 则 卜 虫 程序 将 执行 深度 优先 遍历 。 

e。 更 通常 来 说 ， 集 合 中 的 条 目 可 能 具有 优先 级 。 例 如 ， 我 们 可 能 希望 对 尚未 编 入 索引 的 页 
面 给 予 较 高 的 优先 级 。 


你 可 以 在 http://thinkdast.com/graphtrav 上 阅读 图 的 遍历 的 更 多 信息 。 


15.5 练习 12 


现在 是 时 候 写 爬 岁 了 。 在 本 书 的 仓库 中 ， 你 将 找到 此 练习 的 源 文件 : 


e Wikicrawler.java ， 包 含 你 的 卜 虫 的 其 实 代 码 。 
e@ WikicrawlerTest.java ， 包 含 Wikicrawler 的 测试 代码 。 
e。 JedisIndex,.java ， 这 是 我 以 前 的 练习 的 解决 方案 。 


你 还 需要 一 些 我 们 以 前 练习 中 使 用 过 的 辅助 类 : 


© JedisMaker. java 
© WikiFetcher.java 
© TermCounter.java 


© WikiNodeIterable.java 


在 运行 JedisMaker 之 前 ， 你 必须 提供 一 个 文件 ， 关 于 你 的 Redis 服务 器 。 如果 你 在 上 一 
个 练习 中 这 样 做 ， 你 应 该 全 部 配置 好 了 。 否 则 ， 你 可 以 在 14.3 节 中 找到 bw o 


运行 ant build 来 编译 源 文 件 ， 然 后 运行 ant JedisMaker 来 确保 它 配 置 为 连接 到 你 的 Redis 
服务 


中 


现在 运行 ant WikicrawlerTest 。 它 应 该 失败 ， 因 为 你 有 工作 要 做 ! 


这 是 我 提供 的 Wikicrawler 类 的 起 始 : 


public class WikiCrawler { 


public final String source; 
private JedisIndex index; 

private Queue<String> queue 
final static WikiFetcher wf 


new LinkedList<String>(); 
new WikiFetcher(); 


public WikiCrawler(string source, JedisIndex index) 
this.source = source; 
this.index = index; 
queue.offer(source); 


} 


pubLlrc neroueuesrze() { 
return queue.size(); 
} 


写 


实例 变量 是 : 


e@ source 是 我 们 开始 抓 取 的 网 址 。 

e index 是 JedisIndex ， 结 果 应 该 放 进 这 里 。 

e queue 是 LinkedList ， 这 里 面 我 们 跟踪 已 发 现 但 尚未 编 入 索引 的 网 址 。 
e。 wf 是 wikiFetcher ， 我 们 用 来 读 取 和 解析 网 页 。 


你 的 工作 是 填写 crawl 。 这 是 原型 : 


public String crawl(boolean testing) throws IOException {} 


当 这 个 方法 在 wikicrawlerTest 中 调用 时 ， testing 参数 为 true ， 和 否则 为 false 。 
如 果 testing 是 true ， crawl 方法 应 该 : 


。 以 FIFO 的 顺序 从 队列 中 选择 并 移 除 一 个 URL。 

e 使 用 wikiFetcher.readwikipedia 读 取 页 面 的 内 容 ， 它 读 取 仓 库 中 包含 的 ， 页 面 的 缓存 副 
本 来 进行 测试 (如 果 维 基 百 科 的 版 本 更 改 ， 则 避免 出 现 问 题 ) 。 

。 它 应 该 索引 页 面 ， 而 不 管 它们 是 否 已 经 被 编 入 索引 。 

e 它 应 该 找到 页 面 上 的 所 有 内 部 链接 ， 并 按 他 们 出 现 的 顺序 将 它们 添加 到 队列 中 。“ 内 部 链 
接 " 是 指 其 他 维基 百科 页 面 的 链接 。 

e 它 应 该 返回 其 索引 的 页 面 的 URL。 


如 果 testing 是 false ， 这 个 方法 应 该 : 


以 FIFO 的 顺序 从 队列 中 选择 并 移 除 一 个 URL。 

。 如 果 URL 已 经 被 编 入 索引 ， 它 不 应 该 再 次 索引 ， 并 应 该 返回 null 。 

否则 它 应 该 使 用 wikiFetcher.fetchwikipedia 读 取 页 面 内 容 ， 从 Web 中 读 取 当前 内 容 。 
e。 然后 ， 它 应 该 对 页 面 进行 索引 ， 将 链接 添加 到 队列 ， 并 返回 其 索引 的 页 面 的 URL。 


WikicrawlerTest 加 载 具 有 大 约 266 个 链接 的 队列 ， 然 后 调用 crawl 三 次 。 每 次 调用 后 ， 它 
将 检查 队列 的 返回 值 和 新 长 度 。 


妆 你 的 爬虫 按 规 定 工作 时 ， 此 测试 应 通过 。 祝 你 好 运 ! 


第 十 六 草 布尔 搜索 


原文 : Chapter 16 Boolean search 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


在 本 章 中 ， 我 展示 了 上 一 个 练习 的 解决 方案 。 然 后 ， 你 将 编写 代码 来 组 合 多 个 搜索 结果 ， 并 
按照 它 与 检索 词 的 相关 性 进行 排序 。 


16.1 人 疏 虫 的 答案 


首先 ， 我 们 来 解决 上 一 个 练习 。 我 提供 了 一 个 Wikicrawler 的 大 纲 ; 你 的 工作 是 卉 
写 crawl 。 作 为 一 个 提醒 ， 这 里 是 wikicrawler 类 中 的 字段 : 
public class WikiCrawler { 
// keeps track of where we started 


private final String source,; 


// the index where the results go 
private JedisIndex index; 


// dueue of URLS to be indexed 
private Queue<String> queue = new LinkedList<String>(); 


// fetcher used to get pages from Wikipedia 
final static WikiFetcher wf = new WikiFetcher(); 


当 我 们 创建 wikicrawler 时 ， 我 们 传 入 source 和 index。 最 初 queue 只 包含 一 个 元 


素 ， source ° 


注意 ， EE 的 实现 是 LinkedList ， 所 以 我 们 可 以 在 末尾 添加 元 素 ， 并 从 开头 删除 它们 - 以 
常数 时 间 。 通 过 将 LinkedList 对 象 赋 给 Queue 变量 ， 我 们 将 使 用 的 方法 限制 在 Queue 接口 
中 ;有 全 ， 我 们 将 使 用 offer 添加 元 素 ， 以 及 poll 来 删除 它们 。 


这 是 我 的 Wikicrawler.crawl 的 实现 : 


public String crawl(boolean testing) throws IOException { 
If (queue.isEmpty()) { 
return null; 
} 


String url = queue.poll(); 
System.out.println("Crawling ”+ url); 


If (testing==false && index.isIndexed(url)) { 
System.out.println("Already indexed."); 
return null; 


} 


Elements paragraphs; 
if (testing) { 

paragraphs = wf .readwikipedia(ur1); 
} else { 

paragraphs = wf.fetchwikipedia(ur]l); 
index.indexPage(url, paragraphs); 


queueInternalLinks(paragraphs); 
return url; 


这 个 方法 的 大 部 分 复杂 性 是 使 其 多 于 测试 。 这 是 它 的 逻辑 : 


@ 如 果 队 列 为 空 ， 则 返回 null 来 表明 它 没 有 索引 页 页 面 。 
。 否则 ， 它 将 从 队列 中 删除 并 存储 下 一 个 URL。 
e。 如 果 URL 已 经 被 索引 ， crawl 不 会 再 次 对 其 进行 索引 ， 除 非 它 处 于 测试 模式 。 
e。 接 下 来 ， 它 读 取 页 面 的 内 容 : 如 果 它 处 于 测试 模式 ， 它 从 文件 读 取 ; 否则 它 从 Web 读 
取 。 
它 将 页 面 索引 。 
。 它 解 析 页 面 并 向 队列 添加 内 部 链接 。 
最 后 ， 它 返回 索引 的 页 面 的 URL。 


我 在 15.1 节 展 示 了 Index.indexPage 的 一 个 实现 。 所 以 唯一 的 新 方法 


是 WikiCrawler.queueInternalLinks ° 


我 用 不 同 的 参数 编写 了 这 个 方法 的 两 个 版 本 : 一 个 是 Elements 对 和 象 ， 包 含 每 个 段落 的 DOM 
树 ， 另 一 个 是 Element 对 象 ， 包 含 大 部 分 段落 。 


第 一 个 版 本 只 是 循环 遍历 段落 。 第 二 个 版 本 是 实际 的 逻辑 。 


void queueInternalLinks(Elements paragraphs) { 
for (Element paragraph: paragraphs) { 
queueInternalLinks(paragraph); 
} 


J» 
private void queueInternalLinks(Element paragraph) { 
Elements elts = paragraph.select("alhref]"); 
for (Element elt: elts) { 
String relURL = elt.attr("href"); 
If (relURL.startswith("/wiki/")) { 


String absURL = elt.attr("abs:href"); 
queue.offer (absURL); 


要 确定 链接 是 否 为 “内 部 "链接 ， 我 们 检查 URL 是 否 以 /wiki/ 开头 。 这 可 能 包括 我 们 不 想 索引 
的 一 些 页 面 ， 如 有 关 维 基 百 科 的 元 页 面 。 它 可 能 会 排除 我 们 想 要 的 一 些 页 面 ， 例 如 非 英语 语 
言 页 面 的 链接 。 但 是 ， 这 个 简单 的 测试 足以 起 步 了 。 


这 就 是 它 的 一 切 。 这 个 练习 没有 很 多 新 的 材料 ; 这 主要 是 一 个 机 会 ， 把 这 些 作 品 组 装 到 一 
起 。 


16.2 信息 检索 


这 个 项 目的 下 一 个 阶段 是 实现 一 个 搜索 工具 。 我 们 需要 的 部 分 包括 : 


e 一 个 界面 ， 寺 ee 

。 一 种 查找 机 制 ， 它 接收 每 个 检索 词 并 返回 包含 它 的 页 
e 用 于 组 合 来 自 多 个 检索 词 的 搜索 双 En 

e 对 搜索 结果 打分 和 排序 的 算法 。 


用 于 这 样 的 过 程 的 通用 术语 是 “信息 检索 "， 你 可 以 在 http://thinkdast.com/infret 上 阅读 更 多 信 
息 。 


在 本 练习 中 ， 我 们 将 重点 介绍 步骤 3 和 4。 我 们 已 经 构建 了 一 个 2 的 简单 的 版 本 。 如 果 你 有 
兴趣 构建 Web 应 用 程序 ， 则 可 以 考虑 完成 步骤 1。 


16.3 布尔 搜索 


I 这 意味 着 你 可 以 使 用 布尔 逻辑 来 组 合 来 自 多 个 检索 词 的 
结果 。 例 如 
。 搜索 "java + 编程 ”( 加 号 可 省 略 ) 可 能 只 返回 包含 两 个 检索 词 : java” 和 “编程 "的 页 面 


。 “java OR 编程 "可 能 会 返回 包含 任 一 检索 词 但 不 一 定 同时 出 现 的 页 面 。 
。 “java -印度尼西亚 "可 能 返回 包含 fava”， 不 包含 印度尼西亚 "的 页 面 


含 检索 词 和 运算 符 的 表达 式 称 为 "查询 " 。 
当 应 用 给 搜索 结果 时 ， 布 尔 操作 符 + ， OoR 和 - 对 应 于 集合 操作 交 ， 并 和 差 。 例 如 ， 假 设 


是 包含 java" 的 页 面 集 ， 
e@ s2 是 包含 “编程 "的 页 面 集 ， 以 及 
包含 "印度尼西亚 "的 页 面 集 。 
在 这 种 情况 下 : 
e。 sil 和 s2 的 交集 是 含有 "java” 和 “编程 "的 页 面 集 。 


。 sil 和 s2 的 并 集 是 含有 java” 或 “编程 "的 页 面 集 。 
e si 与 s2 的 差 集 是 含有 "java” 而 不 含有 “印度尼西亚” 的 页 面 集 。 


在 下 一 节 中 ， 你 将 编写 实现 这 些 操 作 的 方法 。 


16.4 练习 13 


在 本 书 的 仓库 中 ， 你 将 找到 此 练习 的 源 文 件 : 


e Wikisearch.java ， 它 定义 了 一 个 对 象 ， 包 人 钨 搜索 结果 并 对 其 执行 操作 。 


@ WikiSearchTest ,java ， 它 包 含 Wikisearch 的 测试 代码 。 
® Card.java ， 它 演示 了 如 何 使 用 java.util.Collections 的 sort 方法 。 


你 还 将 找到 我 们 以 前 练习 中 使 用 过 的 一 些 辅助 类 。 
这 是 Wikisearch 类 定义 的 起 始 : 


public class WikiSearch { 


// map from URLs that contain the term(s) to relevance Score 
private Map<String, Integer> map; 


public WikiSearch(Map<String, Integer> map) { 
this.map = map; 
} 


public Integer getRelevance(String ur1l) { 
Integer relevance = map.get(url); 
return relevance==null] ? 0: relevance; 


wikisearch 对 象 包含 URL 到 它们 的 相关 性 分 数 的 映射 。 在 信息 检索 的 上 下 文中 ，“ 相 关 性 分 

数 " 用 于 表示 页 面 多 么 满足 从 查询 推断 出 的 用 户 需 求 。 相 关 性 0 但 大 
部 分 都 基于 “检索 词 频 率 "， 它 是 搜索 词 在 页 面 上 的 显示 次 数 。 一 种 常见 的 相关 性 分 数 称 为 TF- 
IDF， 人 代表“ 检索 词 频率 - 逆向 文档 频率 "。 你 可 以 在 http://thinkdast.com/tfidf 上 阅读 更 多 信息 


O 


你 可 以 选择 稍 后 实现 TF-IDF， 但 是 我 们 将 从 一 些 更 简单 的 TF 开始 : 
e@ 如 果 查 询 包 含 单个 检索 词 ， 页 面 的 相关 性 就 是 其 词 频 ; 也 就 是 说 该 词 在 页 面 上 出 现 的 次 
数 。 
e。 对 于 具有 多 个 检索 词 的 查询 ， 页 面 的 相关 性 是 检索 词 频 率 的 总 和 ; 也 就 是 说 ， 任 何 检索 
词 出 现 的 总 次 数 。 
现在 你 准备 开始 练习 了。 运行 ant build 来 编译 源 文件 ， 然 后 运行 ant wikisearchTest 。 像 
往常 一 样 ， 它 应 该 失败 ， 因 为 你 有 工作 要 做 。 


在 wikisearch.java 中 ， 卉 充 的 and ，or 以 及 minus 的 主体 ， 使 相关 测试 通过 。 你 不 必 担 


心 testSort ° 


ee WikisearchTest 而 不 使 用 Jedis ， 因为 它 不 依赖 于 Redis 数据 库 中 的 索引 。 但 
， 如 果 要 对 索引 运行 查询 ， 则 必须 向 文件 提供 有 关 Redis 服务 器 的 信息 。 详 见 14.3 节 。 


运行 ant JedisMaker 来 确保 它 配 置 为 连接 到 你 的 Redis 服务 器 。 然 后 运行 Wikisearch ， 它 打 
印 来 自 三 个 查询 的 结果 : 

@ “Java” 

e。 “programming” 

e。 java AND programming” 


最 初 的 结果 不 按照 特定 的 顺序 ， 因 为 Wikisearch.sort 是 不 完整 的 。 


填充 sort 的 主体 ， 使 结果 以 递增 的 相关 顺序 返回 。 我 建议 你 使 用 java.util.collections 提 
供 的 sort 方法 ， 它 可 以 排序 任何 种 类 的 List 。 你 可 以 阅读 http://thinkdast.com/collections 
上 的 文档 。 


有 两 个 sort 版 本 : 


e@ 单 参 数 版 本 接受 列表 并 使 用 它 的 compareTo 方法 对 元 素 进 行 排 序 ， 因 此 元 素 必 须 
是 Comparable ° 

e@ 双 参 数 版 本 接受 任何 对 象 类 型 的 列表 和 一 个 comparator ， 它 是 一 个 提供 compare 方法 的 
对 象 ， 用 于 比较 元 素 。 


如 果 你 不 熟悉 comparable 和 comparator 接口 ， 我 将 在 下 一 节 中 解释 它们 。 


16.5 comparable 和 Comparator 


本 书 的 仓库 包含 了 card.java ， 它 演示 了 两 个 方式 来 排序 card 对 象 的 列表 。 这 里 是 类 定义 的 
起 始 : 


public class Card implements Comparable<Card> { 


private final int rank; 
private final int suit; 


public Card(int rank, int suit) 区 
this.rank = rank; 
this.suit = suit; 


card 对 象 拥有 两 个 整形 字段 ，rank 和 suit 。 card 实现 了 Comparable<Card> ， 也 就 是 说 它 


提供 compareTo 


public int compareTo(Card that) { 
If (this.suit < that.suit) { 
EU ， 


} 

If (this.suit > that.suit) { 
Kewnn 

} 


if (this.rank < that.rank) { 
returm Ly, 


if (this.rank > that.rank) { 
IEeEEURTL 
} 


return Oo, 


compareTo 规范 表明 ， 如 果 this 小 于 that ， 则 应 该 返回 一 个 负数 ， 如 果 它 更 大 ， 则 为 正 
数 ， 如 果 它 们 相等 则 为 6 。 


如 果 使 用 单 参数 版 本 的 collections.sort ， 它 将 使 用 元 素 提供 的 compareTo 方法 对 它们 进行 
排序 。 为 了 演示 ， 我 们 可 以 列 出 52 张 卡 ， 如 下 所 示 : 


public static List<Card> makeDeck() { 
List<Card> cards = new ArrayList<Card>(); 
for (int suit = 0; suit <= 3; suit++) { 
for (int rank = 1; rank <= 13; rank++) { 
Card card = new Card(rank, suit); 
cards.add(card); 


} 
} 
return cards; 
} 
并 这 样 排序 它们 : 


Collections.sort(cards); 


这 个 版 本 的 sort 将 元 素 按 照 所 谓 的 "自然 秩序 放置， 因为 它 由 对 象 本 身 决 定 。 


但 是 可 以 通过 提供 一 个 comparator 对 象 ， 来 强制 实现 不 同 的 排序 。 例 如 ， card 对 象 的 自然 
顺序 将 Ace 视 为 最 小 的 牌 ， 但 在 某 些 纸牌 游戏 中 ， 它 的 排名 最 高 。 我 们 可 以 定义 一 
个 comparator ， 将 Ace 视 为 最 大 的 牌 ， 像 这 样 : 


Comparator<Card> comparator = new Comparator<Card>() { 
Q@override 
public int compare(Card card1，Card card2) { 
If (card1.getSuit() < card2.getSuit()) { 
returm 二 二 


} 
If (card1.getSuit() > card2.getSuit()) { 
returm a 


int ranki 
int rank2 


getRankAceHigh(card1); 
getRankAceHigh(card2); 


If (rank1 < rank2) { 
return -1; 


} 
If (rank1 > rank2) { 
return 1, 


neturmme eo 


} 
private int getRankAceHigh(Card card) { 
int rank = card.getRank(); 
if (rank == 1) { 
return 14; 
} else { 
return rank; 
} 


} 
}; 


该 代码 定义 了 一 个 匿名 类 ， 按 需 实现 compare 。 然 后 它 创建 一 个 新 定义 的 匿名 类 的 实例 。 如 
果 你 不 熟悉 Java 中 的 匿名 类 ， 可 以 在 http://thinkdast.com/anonclass 上 阅读 它们 。 


使 用 这 个 comparator ， 我 们 可 以 这 样 调用 sort 


Collections.sort(cards, comparator); 


在 这 个 顺序 中 ， 黑 桃 的 Ace 是 牌 组 上 的 最 大 的 牌 ; 梅花 二 是 最 小 的 。 


如 果 你 想 试验 这 个 部 分 的 代码 ， 它 们 在 card.java 中 。 作 为 一 个 练习 ， 你 可 能 打算 写 一 个 比 
议 器 ， 先 按照 rank ， 然 后 再 按照 suit ， 所 以 所 有 的 Ace 都 应 该 在 一 起 ， 所 有 的 二 也 是 。 以 
此 类 推 。 


16.6 扩展 


如 果 你 完成 了 此 练习 的 基本 版 本 ， 你 可 能 需要 处 理 这 些 可 选 练习 : 


e 请 阅读 http://thinkdast.com/tfidf 上 的 TF-IDF， 并 实现 它 。 你 可 能 需要 修改 JavaIndex 来 
计算 文档 频率 ; 也 就 是 说 ， 每 个 检索 词 在 索引 的 所 有 页 面 上 出 现 的 总 次 数 。 

e。 对 于 具有 多 个 检索 词 的 查询 ， 每 个 页 面 的 总 体 相关 性 目前 是 每 个 检索 词 的 相关 性 的 总 
和 。 想 想 这 个 简单 版 本 什么 时 候 可 能 无 法 正常 运行 ， 并 尝试 一 些 替 代 方 案 。 

e 构建 用 户 界 面 ， 允 许 用 户 输入 带 有 布尔 运算 符 的 查询 。 解 析 查 询 ， 生 成 结果 ， 然 后 按 相 
关 性 排序 ， 并 显示 评分 最 高 的 URL。 考 虑 生成 "片段 "2， 它 显示 了 检索 词 出 现在 页 面 的 哪 


里 。 如 果 要 为 用 户 界面 制作 Web 应 用 程序 ， 请 考虑 将 Heroku 作为 简单 选项 ， 用 于 开发 
和 部 署 Java Web 应 用 程序 。 见 http:/thinkdast.com/heroku 。 


第 十 七 章 排序 


原文 : Chapter 17 Sorting 
译 者 : 飞龙 

协议 : CC BY-NC-SA 4.0 
自豪 地 采用 谷歌 翻译 


计算 机 科学 领域 过 度 病 迷 于 排序 算法 。 根 据 CS 学 生 在 这 个 主题 上 花费 的 时 间 ， 你 会 认为 排 
序 算法 的 选择 是 现代 软件 工程 的 基石 。 当 然 ， 现 实 是 ， 软 件 开发 人 员 可 以 在 很 多 年 中 ， 或 者 
整个 职业 生涯 中 ， 不 必 考虑 排序 如 何 工作 。 对 于 几乎 所 有 的 应 用 程序 ， 它 们 都 使 用 它们 使 用 
的 语言 或 库 提供 的 通用 算法 。 通 常 这 样 就 行 了 。 


所 以 如 果 你 跳 过 这 一 章 ， 不 了 解 排序 算法 ， 你 仍然 是 一 个 优秀 的 开发 人 员 。 但 是 有 一 些 原 
你 可 能 想 要 这 样 : 


。 尽管 有 绝 大 多 数 应 用 程序 都 可 以 使 用 通用 算法 ， 但 你 可 能 需要 了 解 两 种 专用 算法 : 基数 
排序 和 有 界 堆 排序 。 

。 一 种 排序 算法 ， 归 并 排序 ， 是 一 个 很 好 的 教学 示例 ， 因 为 它 演示 了 一 个 重要 和 实用 的 算 
法 设计 策略 ， 称 为 分 治 "。 此 外 ， 当 我 们 分 析 其 表现 时 ， 你 将 了 解 到 我 们 以 前 没有 看 到 的 
增长 级 别 ， 即 线性 对 数 。 最 后 ， 一 些 最 广泛 使 用 的 算法 是 包含 归并 排序 的 混合 体 。 

。 了 解 排序 算法 的 另 一 个 原因 是 ， 技 术 面 试 官 喜欢 询问 它们 。 如 果 你 想 要 工作 ， 如 果 你 能 
展示 CS 文化 素养 ， 就 有 帮助 。 


因此 ， 在 本 章 中 我 们 将 分 析 插 入 排序 ， 你 将 实现 归并 排序 ， 我 将 给 你 讲解 基数 排序 ， 你 将 编 
写 有 界 堆 排 序 的 简单 版 本 。 


17.1 插入 排 友 
我 们 将 从 插入 排序 开始 ， 主 要 是 因为 它 的 描述 和 实现 很 简单 。 它 不 是 很 有 效 ， 但 它 有 一 些 补 
救 的 特性 ， 我 们 将 看 到 它 。 


我 们 不 在 这 里 解释 算法 ， 建 议 你 阅读 http://thinkdast.com/insertsort 中 的 插入 排序 的 维基 百科 
页 面 ， 其 中 包括 伪 代 码 和 动画 示例 。 当 你 理解 了 它 的 思路 再 回来 。 


这 是 Java 中 插入 排序 的 实现 : 


publnc class ErnstSsorter<T > 4{ 
public void insertionSort(List<T> list, Comparator<T> comparator) { 


for (int i=1i; i < list.size(); i++) { 
T elt -i = list.get(i); 
os) bp 
while (j > 0) { 
T elt_ j = list.get(j-1); 
if (comparator.compare(elt i, elt_ j) >= 0) { 
break; 


} 
list,.set(j, elt_ j); 
J 


} 
list.set(J, elt 1)» 


我 定义 了 一 个 类 ， Listsorter 作为 排序 算法 的 容器 。 通 过 使 用 类 型 参数 T ， 我 们 可 以 编写 一 
个 方法 ， 它 在 包含 任何 对 得 类 型 的 列表 上 工作 。 


insertionsort 需要 两 个 参数 ， ee List ， 一 个 是 comparator ， 它 知道 如 何 比 
较 类 型 T 的 对 象 。 它 对 列表 “ 原 地 "排序 ， 这 意味 着 它 修改 现 有 列表 ， 不 必 分 配 任何 新 空间 。 


下 面 的 示例 演示 了 ， 如 何 使 用 Integer 的 List 对 象 ， 调 用 此 方法 : 


List<Integer> list = new ArrayList<Integer>( 
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Comparator<Integer> comparator = new Comparator<Integer>() { 
@Override 
bublic int compare(Integer elt1, Integer elt2) { 
return elti1.compareTo(elt2); 


} 
}; 
ListSorter<Integer> sorter = new ListSorter<Integer>(); 


sorter.insertionSort(list, comparator); 
System.out.println(1ist); 


insertionsort 有 两 个 识 套 循环 ， 所 以 你 可 能 会 猿 到 ， 它 的 运行 时 间 是 二 次 的 。 在 这 种 情况 

下 ， 一 般 是 正确 的 ， 但 你 做 出 这 个 结论 之 前 ， 你 必须 检查 ， 每 个 循环 的 运行 次 数 与 n ， 数 组 
的 大 小 成 正比 。 

外 部 循环 从 1 和 迭代 到 list.size() ， 因 此 对 于 列表 的 大 小 n 是 线性 的 。 内 循环 从 i 迭代 

到 96， 所 以 在 n 中 也 是 线性 的 。 因 此 ， 两 个 循环 运行 的 总 次 数 是 二 次 的 。 


如 果 你 不 确定 ， 这 里 是 证 明 : 


第 一 次 循环 中 ，i = 1 ， 内 循环 最 多 运行 一 次 。 第 二 次 ，1i ， 内 循环 最 多 运行 两 次 。 最 
后 一 次 ，i =n - 1， 内 循环 最 多 运行 n 次 。 
因此 ， 内 循环 运行 的 总 次 数 是 序列 1 ...，n-1 的 和 ， 即 n(n - 1)/2 。 该 表达 式 的 主 项 


(拥有 最 高 指数 ) 为 nn*2 。 


在 最 坏 的 情况 下 ， 插 入 排序 是 二 次 的 。 然 而 : 


e 如 果 这 些 元 素 已 经 有 序 ， 或 者 几乎 这 样 ， 插 入 排序 是 线性 的 。 具 体 来 说 ， 如 果 每 个 元 素 
距离 它 的 有 序 位 置 不 超过 k 个 元 素 ， 则 内 部 循环 不 会 运行 超过 k 次 ， 并 且 总 运行 时 间 
是 o(kn) 。 


e 由 于 实现 简单 ， 开 销 较 低 ; 也 就 是 ， 尽 管 运行 时 间 是 an2 ， 主 项 的 系数 a ， 也 可 能 
i 


所 以 如 果 我 们 知道 数组 几乎 是 有 序 的 ， 或 者 不 是 很 大 ， 插 入 排序 可 能 是 一 个 不 错 的 选择 。 但 
是 对 于 大 数组 ， 我 们 可 以 做 得 更 好 。 其 实 要 好 很 多 。 


17.2 练习 14 


归并 排序 是 运行 时 间 优 于 二 次 的 几 种 算法 之 一 。 同 样 ， 不 在 这 里 解释 算法 ， es 阅读 维 
基 百 科 http://thinkdast.com/mergesort。 一 旦 你 有 了 想法 ， 反 回来 ， 你 可 以 通过 写 一 个 实现 来 
测试 你 的 理解 。 


在 本 书 的 仓库 中 ， 你 将 找到 此 练习 的 源 文件 : 


@ ListSorter.java 


@ ListSorterTest.java 


运 和 行 ant build 来 编译 源 文件 然后 后 运行 ant ListSorterTest 。 像 往常 一 样 它 应 该 失败 ? 
为 你 有 工作 要 做 。 


在 ListSorter.java 中 2 我 提供 了 两 个 方法 的 大 纲 ， mergeSortInP1ace 以 及 mergeSort 


public void mergeSortIinPlace(List<T> list, Comparator<T> comparator) { 
List<T> sorted = mergeSortHelper(list, comparator); 
list.clear(); 
list.addAll(sorted); 

} 


private List<T> mergeSort(List<T> list, Comparator<T> comparator) { 
OD OR il 
return null; 

} 


这 两 种 方法 做 同样 的 事情 ， 但 提供 不 同 的 接口 。 mergesort 获取 一 个 列表 ， 并 返回 一 个 新 列 
表 ? 具有 升序 排列 的 相 同 元 素 ° mergeSortInPJLace 是 修改 现 有 列表 的 void 方法 。 


你 的 工作 是 填充 mergesort 。 在 编写 完全 递归 版 本 的 合并 排序 之 前 ， 首 先 要 这 样 : 


e 将 列表 分 成 两 半 。 
e@ 使 用 collections.sort 或 insertionsort 来 排序 这 两 部 分 。 
e。 将 有 序 的 两 部 分 合并 为 一 个 完整 的 有 序列 表 中 。 


这 将 给 你 一 个 机 会 来 调试 用 于 合并 的 代码 ， 而 无 需 处 理 递归 方法 的 复杂 性 


接 下 来 ， 添 加 一 个 边界 情况 (请 参阅 < http://thinkdast.com/basecase> ) 。 如 果 你 只 提供 一 
个 列表 ， 仅 包含 一 个 元 素 ， 则 可 以 立即 返回 ， 因 为 它 已 经 有 序 。 或 者 如 果 列 表 的 长 度 低 于 某 
个 阅 值 ， 则 可 以 使 用 collections.sort 或 insertionsort 。 在 进行 前 测试 边界 情况 。 


最 后 ， 修 改 你 的 解决 方案 ， 使 其 进行 两 次 递归 调用 来 排序 数组 的 两 个 部 分 。 当 你 使 其 正常 工 


作 ， testMergesort 和 testMergeSortInPlace 应 该 通过 。 


17.3 归并 排序 的 分 析 


为 了 对 归并 排序 的 运行 时 间 进 行 划 分 ， 对 递归 层级 和 每 个 层级 上 完成 多 少 工作 方面 进行 思 
考 ， 是 很 有 帮助 的 。 假 设 我 们 从 包含 n 个 元 素 的 列表 开始 。 以 下 是 算法 的 步骤 : 


e 生成 两 个 新 数组 ， 并 将 一 半 元 素 复 制 到 每 个 数组 中 。 
e 排序 两 个 数组 。 
e。 合并 两 个 数组 。 


图 17.1 显示 了 这 些 步骤 。 


mw 


=== = 


图 17.1 : 归并 排序 的 展示 ， 它 展示 了 递归 的 一 个 层级 。 


第 一 步 复 制 每 个 元 素 一 次 ， 因 此 它 是 线性 的 。 第 三 步 也 复制 每 个 元 素 一 次 ， 因 此 它 也 是 线性 
的 。 现 在 我 们 需要 弄 清楚 步骤 2 的 复杂 性 。 为 了 做 到 这 一 点 ， 查 看 不 同 的 计 和 莫 图 片 会 有 帮 
助 ， 它 展示 了 递归 的 层 数 ， 如 图 17.2 所 示 。 
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图 17.2 : 归并 排序 的 展示 ， 它 展示 了 递归 的 所 有 层级 。 


在 顶层 ， 我 们 有 1 个 列表 ， 其 中 包含 n 个 元 素 。 为 了 简单 起 见 ， 我 们 假设 n 是 2 的 规 。 在 
层 ， 有 2 个 列表 包含 n/2 个 元 素 。 然 后 是 4 个 列表 与 n/4 元 素 ， 以 此 类 推 ， 直 到 我 们 
得 到 n 个 列表 与 1 元素。 


在 每 一 层 ， 我 们 共有 n 个 元 素 。 在 下 降 的 过 程 中 ， 我 们 必须 将 数组 分 成 两 半 ， 这 在 每 一 层 上 
都 需要 与 n 成 正比 的 时 间 。 在 回来 的 路 上 ， 我 们 必须 合并 n 个 元 素 ， 这 也 是 线性 的 。 


如 果 层 数 为 hn ， 算 法 的 总 工作 量 为 o(nh) 。 那 么 有 多 少 层 呢 ?了 有 两 种 方法 可 以 考虑 : 


e 我 们 用 多 少 步 ， 可 以 将 n 减 半 直到 1 ? 
e 或者， 我 们 用 多 少 步 ， 可 以 将 1 加 倍 直 到 n ? 


第 二 个 问题 的 另 一 种 形式 是 " 2 的 多 少 次 方 是 n”? 


2A^Ah = n 


对 两 边 取 以 2 为 底 的 对 数 : 
h = 1og2(n) 
所 以 总 时 间 是 o(nlogn) 。 我 没有 纠结 于 对 数 的 底 ， 因 为 底 不 同 的 对 数 差别 在 于 一 个 常数 ， 所 
以 所 有 的 对 数 都 是 相同 的 增长 级 别 。 
0(nlogn) 中 的 算法 有 时 被 称 为 “线性 对 数 " 的 ， 但 大 多 数 人 只 是 说 n logn ° 


事实 证 明 ，0(nlogn) 是 通过 元 素 比较 的 排序 算法 的 理论 下 限 。 这 意味 着 没有 任何 “比较 排 
序 " 的 增长 级 别 比 n log n 好 。 请 参见 http://thinkdast.com/compsort。 


但 是 我 们 将 在 下 一 节 中 看 到 ， 存 在 线性 时 间 的 非 比 较 排 序 ! 


基数 排序 


在 2008 年 美国 总 统 竞 选 期 间 ， 人 候选 人 巴 拉 克 :奥巴马 在 访问 Google 时 ， 被 要 求 进 行 即 兴 算 法 
分 析 。 首 席 执行 长 埃 里 克 : 施 密 特 开玩笑 地 问 他 ，“ 排 序 一 百 万 个 32 位 整数 的 最 有 效 的 方法 ”。 
显然 有 人 暗中 告诉 了 奥巴马 ， 因 为 他 很 快 就 回答 说 :“ 我 认为 冒 泡 排 序 是 错误 的 。” 你 可 以 在 
http://thinkdast.com/obama 观看 视频 。 
奥巴马 是 对 的 : 冒 泡 排序 在 概念 上 是 简单 的 ， 但 其 运行 时 间 是 二 次 的 ; 即使 在 二 次 排序 算法 
中 ， 其 性 能 也 不 是 很 好 。 见 http:Wthinkdast.com/bubble 。 
施 密 特 想 要 的 答案 可 能 是 “基数 排序 "， 这 是 一 种 非 比 较 排序 算法 ， 如 果 元 素 的 大 小 是 有 界 的 ， 
例如 32 位 整数 或 20 个 字符 的 字符 串 ， we 
为 了 看 看 它 是 如 何 工作 的 ， 想 象 你 有 一 堆 索 引 卡 ， 每 张 卡片 包含 三 个 字母 的 单词 。 以 下 是 一 
个 方法 ， 可 以 对 卡 进行 排序 : 
e。 根据 第 一 个 字母 ， 将 卡片 放 入 桶 中 。 所 以 以 a 开头 的 单词 应 该 在 一 个 桶 中 ， 其 次 是 
以 bp 开头 的 单词 ， 以 此 类 推 
。 根据 第 二 个 字母 再 次 将 卡片 放 入 每 个 桶 。 所 以 以 aa 开头 的 应 该 在 一 起 ， 其 次 是 以 ab 开 
头 的 ， 以 此 类 推 当 然 ， 并 不 是 所 有 的 桶 都 是 满 的 ， 但 是 没关系 。 
e 根据 第 三 个 字母 再 次 将 卡片 放 入 每 个 桶 。 


此 时 ， 每 个 桶 包含 一 个 元 素 ， 桶 按 升序 排列 。 图 17.3 展示 了 三 个 字母 的 例子 
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图 17.3 : 三 个 字母 的 基数 排序 的 例子 

最 上 面 那 行 显示 未 排序 的 单词 。 第 二 行 显示 第 一 次 遍历 后 的 桶 的 样子 。 每 个 桶 中 的 单词 都 以 
相同 的 字母 开头 。 

第 二 遍 之 后 ， 每 个 桶 中 的 单词 以 相同 的 两 个 字母 开头 。 在 第 三 遍 之 后 ， 每 个 桶 中 只 能 有 一 个 
单词 ， 并 且 桶 是 有 序 的 。 

在 每 次 遍历 期 间 ， 我 们 遍历 元 素 并 将 它们 添加 到 桶 中 。 只 要 桶 允许 在 恒定 时 间 内 添加 元 素 ， 
每 次 遍历 是 线性 的 。 


遍历 数量 ， 我 会 称 之 为 w ， 取 决 于 单词 的 "宽度 "， 但 不 取决 于 单词 的 数量 ，n 。 所 以 增长 级 
别 是 o(wn) ， 对 于 n 是 线性 的 。 


基数 排序 有 许多 变 体 ， 并 有 许多 方法 来 实现 每 一 个 。 你 可 以 在 http://thinkdast.com/radix 上 阅 
读 他 们 的 更 多 信息 。 作 为 一 个 可 选 的 练习 ， 请 考虑 编写 基数 排序 的 一 个 版 本 。 


17.5 堆 排 序 


基数 排序 适用 于 大 小 有 界 的 东西 ， 除 了 他 之 外 ， 还 有 一 种 你 可 能 遇 到 的 其 它 专用 排序 算法 : 
有 界 堆 排序 。 如 果 你 在 处 理 非常 大 的 数据 集 ， 你 想 要 得 到 前 10 个 或 者 前 k 个 元 素 ， 其 
中 k 和 远 小 于 n ， 它 是 很 有 用 的 。 


例如 ， 假 设 你 正在 监视 一 个 Web 服务 ， 它 每 天 处 理 十 亿 次 事务 。 在 每 一 天 结束 时 ， 你 要 汇报 
最 大 的 k 个 事务 (或 最 慢 的 ， 或 者 其 它 最 xx 的 ) 。 一 个 选项 是 存储 所 有 事务 ， 在 一 天 结束 时 
对 它们 进行 排序 ， 然 后 选择 最 大 的 k 个 。 需 要 的 时 间 与 nlogn 成 正比 ， 这 非常 慢 ， 因 为 我 们 
可 能 无 法 将 十 亿 次 交易 记录 在 单个 程序 的 内 存 中 。 我 们 必须 使 用 “外 部 "排序 算法 。 你 可 以 在 
http://thinkdast.com/extsort 上 了 解 外 部 排序 。 


使 用 有 界 堆 ， 我 们 可 以 做 得 更 好 ! 以 下 是 我 们 的 实现 方式 : 


。 我 会 解释 (无 界 ) 堆 排序 。 
。 你 会 实现 它 


。 我 将 解释 有 界 堆 排序 并 进行 分 析 。 


要 了 解 堆 排序 ， 你 必须 了 解 堆 ， 这 是 一 个 类 似 于 二 又 搜索 树 (BST) 的 数据 结构 。 有 一 些 区 
别 : 


。 在 BST 中 ， 每 个 节点 x 都 有 "BST 特性" : x 左 子 树 中 的 所 有 节点 都 小 于 x ， 右 子 树 中 
的 所 有 节点 都 大 于 Xa “ 
。 在 堆 中 ， 每 个 节点 x 都 有 " 堆 特 性 ”: 两 个 子 树 中 的 所 有 节点 都 大 于 x 。 
。 堆 就 像 平衡 的 BST ; 当 你 添加 或 删除 元 素 时 ， 他 们 会 做 一 些 额 外 的 工作 来 重新 使 树 平 
衡 。 因 此 ， 可 以 使 用 元 素 的 数组 来 有 效 地 实现 它们 。 
译 者 注 : 这 里 先 讨论 最 小 堆 。 如 果子 树 中 所 有 节点 都 小 于 x ， 那 么 就 是 最 大 堆 。 
堆 中 最 小 的 元 素 总 是 在 根 节点 ， 所 以 我 们 可 以 在 常数 时 间 内 找到 它 。 在 扒 中 添加 和 删除 元 素 
需要 的 时 间 与 树 的 高 度 h 成 正比 。 而 且 由 于 堆 总 是 平衡 的 ， 所 以 h 与 log n 成 正比 。 你 可 以 
在 http://thinkdast.com/heap 上 阅读 更 多 堆 的 信息 。 
Java PriorityQueue 使 用 堆 实现 ° PriorityQueue 提供 Queue 接口 中 指定 的 方法 2 包 
括 offer 和 poll : 
e offer :将 一 个 元 素 添加 到 队列 中 ， 更 新 堆 ， 使 每 个 节点 都 具有 " 堆 特 性 ”。 需 要 logn 的 
时 间 。 
e poll : 从 根 节 点 中 删除 队列 中 的 最 小 元 素 ， 并 更 新 堆 。 需 要 logn 的 时 间 。 


给 定 一 个 priorityQueue ， 你 可 以 像 这 样 轻松 地 排序 的 n 个 元 素 的 集合 : 


e 使 用 offer ， 将 集合 的 所 有 元 素 添 加 到 priorityQueue 。 
e 使 用 poll 从 队列 中 删除 元 素 并 将 其 添加 到 List 。 


因为 poll 返回 队列 中 剩余 的 最 小 元 素 ， 所 以 元 素 按 升序 添加 到 List 。 这 种 排序 方式 称 为 堆 
排序 (请 参阅 http://thinkdast.com/heapsort) 。 


向 队列 中 添加 n 个 元 素 需 要 nlogn 的 时 间 。 删 除 n 个 元 素 也 是 如 此 。 所 以 堆 排 序 的 运行 时 间 


是 O(n logn) ° 


在 本 书 的 仓库 中 ， 你 可 以 在 ListSorter .java 中 找到 heapSort 方法 的 大 纲 。 十 充 它 ， 然 后 运 
行 ant ListsorterTest 来 确认 它 可 以 工作 。 


17.6 有 界 堆 排 序 


有 界 堆 是 一 个 限制 为 最 多 包含 k 个 元 素 的 堆 。 如 果 你 有 n 个 元 素 ， 你 可 以 跟踪 这 个 最 大 
的 k 个 元 素 : 


最 初 堆 是 空 的 。 对 于 每 个 元 素 x : 


e 分 支 1 : 如 果 堆 不 满 ， 请 添加 x 到 堆 中 。 

e 分 支 2 : 如 果 堆 满 了 ， 请 与 堆 中 x 的 最 小 元 素 进行 比较 。 如 果 x 较 小 ， 它 不 能 是 最 大 
的 k 个 元 素 之 一 ， 所 以 你 可 以 丢弃 它 。 

。 分 支 3 : 如 果 堆 满 了 ， 并 且 x 大 于 堆 中 的 最 小 元 素 ， 请 从 堆 中 删除 最 小 的 元 素 并 添 
加 > “ 


使 用 顶部 为 最 小 元 素 的 扒 ， 我 们 可 以 跟踪 最 大 的 k 个 元 素 。 我 们 来 分 析 这 个 算法 的 性 能 。 对 
于 每 个 元 素 ， 我 们 执行 以 下 操作 之 一 : 


。 分 支 1 :将 元 素 添加 到 堆 是 o(log k) 。 
e 分 支 2 : 找到 堆 中 最 小 的 元 素 是 0(1) 。 
。 分 支 3 : 删除 最 小 元 素 是 0(1l0g k) 。 添 加 x 也 是 0(1og k) 。 


在 最 坏 的 情况 下 ， 如 果 元 素 按 升序 出 现 ， 我 们 总 是 执行 分 支 3。 在 这 种 情况 下 ， 处 理 n 个 元 
素 的 总 时 间 是 o(n log k) ， 对 于 n 是 线性 的 。 


在 ListSorter.java 中 ， 你 会 发 现 一 个 叫做 topk 的 方法 的 大 纲 ， 它 接受 一 
个 WE 时、 Comparator 和 一 个 整数 k 。 它 应 该 按 升序 返回 List 的 k 个 最 大 的 元 素 。 填充 


它 ， 然 后 运行 ant ListsorterTest 来 确认 它 可 以 工作 。 


17.7 空间 复杂 性 


到 目前 为 止 ， 我 们 已 经 谈 到 了 很 多 运行 时 间 的 分 析 ， 但 是 对 于 许多 算法 ， 我 们 也 关心 空间 。 
例如 ， 归 并 排序 的 一 个 缺点 是 它 会 复制 数据 。 在 我 们 的 实现 中 ， 它 分 配 的 空间 总 量 
是 O(n log n) ° 通过 更 机 智 的 实现 ， 你 可 以 将 空间 要 求 降 至 0(n) ° 


相 比 之 下 ， 插 入 排序 不 会 复制 数据 ， ee 会 原 地 排序 元 素 。 它 使 用 临时 变量 来 一 次 性 比较 
两 个 元 素 ， 并 使 用 一 些 其 它 局 部 变量 。 但 它 的 空间 使 用 不 取决 于 mn 。 


我 们 的 堆 排 序 实现 创建 了 新 priorityQueue ， 来 存储 元 素 ， 所 以 空间 是 o(n) ; 但 是 如 果 你 和 有 
够 原 地 对 列表 排序 ， 则 可 以 使 用 0(1) 的 空间 执行 堆 排序 。 


刚刚 实现 的 有 界 堆栈 算法 的 一 个 好 处 是 ， 它 只 需要 与 k 成 正比 的 空间 (我 们 要 保留 的 元 素 的 
数量 ) ， 而 k 通常 比 n 小 得 多 。 


软件 开发 人 员 往 往 比 空间 更 加 注重 运行 时 间 ， 对 于 许多 应 用 程序 来 说 ， 这 是 适当 的 。 但 是 对 
于 大 型 数据 集 ， 空 间 可 能 同等 或 更 加 重要 。 例 如 


e。 如 果 一 个 数据 集 不 能 放 入 一 个 程序 的 内 存 ， 那 么 运行 时 间 通 常会 大 大 增加 ， 或 者 根本 不 


能 运行 。 如 果 你 选择 一 个 需要 较 少 空间 的 算法 ， 并 且 这 样 可 以 将 计算 放 入 内 存 中 ， 则 可 
能 会 运行 得 更 快 。 同 样 ， 使 用 较 少 空间 的 程序 ， 可 能 会 更 好 地 利用 CPU 缓存 并 运行 速度 
更 快 〈 请 参阅 http://thinkdast.com/cache) 。 

。 在 同时 运行 多 个 程序 的 服务 器 上 ， 如 果 可 以 减少 每 个 程序 所 需 的 空间 ， 则 可 以 在 同 
服务 器 上 运行 更 多 程序 ， 从 而 降低 硬件 和 能 源 成 本 。 

所 以 这 些 是 一 些 原因 ， 你 应 该 至 少 了 解 一 些 算法 的 空间 需求 。 


